小胖說統計之十二：優效性試驗-統計分析-臨床研習社

開篇宣告：1：以下內容轉自網路，如有侵權，可聯絡刪除

2. 以下觀點，僅代表作者個人觀點，請帶著質疑的態度去閱讀。如有問題，歡迎評論區留言或直接聯絡作者

顧名思義，優效性試驗的目的是顯示試驗藥物的療效優於對照藥。優效性檢驗的第一步往往是對兩組進行統計學檢驗，看看有沒有顯著性差異。當兩組有顯著性差異後，下一步就得判斷兩組之間的差異是否有臨床意義。這裏小胖需要強調的是，統計學顯著性差異並不意味著差異有臨床意義。舉個極端的例子，只要樣本量足夠大，10000 甚至 100000，哪怕是 0.01 的差異都能有統計學意義，但這個 0.01 的差異當然在臨床上是不會被認可的。考慮到這一點，當計算優效性試驗的樣本量時，你假設的兩組差異必須在臨床上是有意義的。

關於優效性試驗還有一個大家常碰到的問題是，究竟是單側檢驗還是雙側檢驗呢？其實這個問題統計學界本身存在著爭議，至於具體爭議，小胖就不在此贅述了，小胖想讓大家知道的是，現在通常優效性試驗取的都是雙側 0.05 顯著水平。

至於具體的統計檢驗，可透過雙側 0.05 顯著水平或雙側 95％可信區間兩種方法來實現，當然了優效性試驗要求 p<0.05，或兩組療效（治療－對照）之差的95％可信區間的下限大於 0。

讓我們看一個簡單的優效性試驗例子：J Am Acad Dermatol 2003;48:535‐41

爲了證實地氯雷他定對慢性蕁麻疹的療效和安全性，研究者設計了一項地氯雷他定對比安慰劑治療慢性蕁麻疹的隨機對照雙盲試驗。本試驗選擇的主要終點是與基線相比搔癢評分的變化。假設標準差為 1.0 分，每組需要 100 例病人在 0.05的顯著性水平上有 90％的把握能檢驗出兩組 0.5 分或更多的差別。最後結果地氯雷他定與基線相比搔癢評分的變化為 1.05，安慰劑組為 0.52，p<0.001. 結論地氯雷他定可以有效治療慢性蕁麻疹。

以上這個例子就是一個最經典的優效性試驗的例子，即透過安慰劑對照試驗顯示試驗藥物優於安慰劑，從而證實試驗藥物的療效。這種安慰對照的優效性試驗在臨床試驗的發展程序中起到了鼻祖的作用，以前對於某種疾病還沒有治療藥物的時候，一種新藥物的出現，往往會選擇安慰劑對照來證實療效，當然隨著越來越多標準藥物的出現，以及出於倫理等方面的考慮，現在安慰劑對照的試驗也開始變少，但它在藥物研發中的地位是決不能抹殺的。

隨著醫學的發展，現在各個疾病基本上都有自己有效的治療藥物，這時我們推出一種新藥，往往在選擇對照時，不得不選擇那些已有的有效治療藥物，所以相比較安慰劑對照試驗，陽性對照試驗越來越多，而陽性對照試驗最理想的情況是，你的藥物優於陽性對照藥物，這和上文中提及的安慰劑對照試驗一樣，是證實你的藥物的療效的最好的也是最有力的方法。這種陽性對照的優效性試驗在現在我們的臨床試驗中發揮了很重要的作用，怎麼說呢，一種新藥的出現，如果它有突破性的進展，最大的證明就是你的療效優於現在這種疾病的標準治療藥物，而此時陽性對照的優效性試驗就是你證明你療效的最理想的選擇。

小胖給大家介紹一個藥物研發歷史上一個很著名的陽性對照優效性試驗的例子－EVIDENCE 研究。

2003 年 3 月 8 日，美國 FDA 正式批准瑞士雪蘭諾公司的 Rebif （干擾素 beta‐1a）治療複發性多發性硬化。此次 FDA 批准 Rebif 上市，打破了另外一種干擾素類藥物 Avonex 的市場專有狀態，Avonex 在 1996 年被批准用於多發性硬化的治療。那麼 FDA 為什麼批准呢，其中最重要的依據就是一項 Rebif 與 Avonex 直接比較的研究－EVIDENCE 研究，而 Rebif 的批准則說明了如果有另外一種藥物比原有藥物更有效或者更安全的話，那麼就可以打破原有藥物的市場專有狀態。

那麼現在我們來看一下 EVIDENCE 的研究設計和結果吧。

EVIDENCE 研究是一項比較 Rebif 與 Avonex 兩種藥物治療複發性多發性硬化效果的大規模的研究，在美國、加拿大以及歐洲的多箇中心進行。677 名複發性多發性硬化病人被隨機分配到 Rebif 和 Avonex 組，其中 Rebif 組 339 例，Avonex組 338 例。主要療效終點為治療 24 周後的無複發率。研究者把本試驗設計為優效性試驗，即證明 Rebif 優於 Avonex，而在進行樣本量計算時，則假定 Rebif 組和 Avonex 組治療 24 周後的無複發率分別為 65％和 50％。研究結果顯示，治療24 周後，Rebif 組和 Avonex 組無複發率分別為 74.9％和 63.3％,p= 0.0005，而在其他的次要終點方面，Rebif 組也顯著優於 Avonex 組。最後研究結果證明，Rebif在治療複發性多發性硬化方面比 Avonex 更有效。

關於陽性對照的試驗，能作出優效來當然是最理想的結果，但研究者在設計這種試驗時，往往會遇到一個難題，一是對照藥物的選擇，另一個就是你有沒有把握作出優效來，如果你設計成優效試驗，結果作出來確實優勢，當然是皆大歡喜，但如果作不出來，兩種藥物沒有統計學差異呢，這時對結果的解釋和結論的得出往往就會變得比較複雜，最重要的一點是你不能因為兩者沒有統計學差異而得出兩種藥物療效相當或者非劣效之類的結論，而造成結果無統計學差異的原因則有很多，並不是一句兩種藥物療效相等所能解釋的。

讓我們來看下邊這兩個例子：

研究 1：隨機、雙盲、對照試驗
- 比較兩種溶栓藥：SK 和 rt‐PA

- 主要終點：30 天死亡率（兩分類變數）
- SK: 10370 例病人 rt‐PA: 10348 例病人
- SK: 7.4% rt‐PA: 6.3%
- 卡方檢驗： p=0.0028

研究 2：隨機、雙盲、對照試驗
- 比較兩種溶栓藥：A 和 B
- 主要終點：30 天死亡率（兩分類變數）
- A: 1000 例病人 B: 1000 例病人
- A: 7.4% B: 6.3%
- 卡方檢驗： p=0.37

從研究 1 和研究 2，我們能得出什麼結論？
研究 1：差異有統計學意義，SK 的療效優於 rt‐PA
研究 2：差異無統計學意義，能否得出 A 和 B 的療效相同？

從上邊的例子，我們可以看出，同樣的 30 天死亡率，結果卻大不相同。這裏就涉及到一個對 p 值的正確認識的問題，這種問題在設計為優效性的試驗中尤為常見。當 p>0.05 時，統計上說是無統計學意義，它的含義是根據當前資料，尚不足以認為兩組間療效差異具有統計學意義。

換句話說，p>0.05 是一個不是結論的結論，從統計學上說它是結論，表示無統計學意義；從臨床上說，它不是結論，既不能說兩藥有差別，也不能說兩藥無差別，可能例數過少或誤差過大，增大例數或減少誤差就可能達到 p<0.05。就如上面的例子，當每組樣本量從 1000 增加到 10000 時，同樣的 30 天死亡率的比較就能達到 p<0.05。因此，我們必須在這裏強調的一點就是，不能僅僅從 p>0.05就得出兩藥療效相等的結論。

在優效性試驗中，還會涉及到一個統計學差異與臨床差異的問題。統計學差異很好理解，就是兩組的差別有統計學意義，這個一般是由我們的 p 值或 95%可信區間來判斷的，而臨床差異呢，就是從臨床角度考慮兩組的差別是具有臨床意義的，舉個例子來說，兩種降壓藥降壓差別在 3mmHg 以上才具有臨床意義。

在考察差異的臨床試驗中，兩組差異無外乎會出現下列 4 種結果：

- 統計學和臨床都有意義

- 統計學和臨床都無意義

- 統計學有意義，臨床無意義

- 統計學無意義，臨床有意義

上邊的四種情況中，出現第一種和第二種，那麼結論比較明確。然而，當統計學和臨床不一致時，即出現上邊的第三和第四種情況時，則需要進行具體分析：

當出現第三種情況時，即統計學有意義，臨床無意義；這時我們不能以統計學上的意義來取代臨床上的意義，為什麼呢？很簡單，不管真實差異多麼小，當樣本量足夠大時，總會檢驗出兩組具有統計學差異。例如，上邊提及的降壓藥，如果兩組實際差別也就是 1mmHg，只要你的樣本量足夠大，上萬，上十萬，總能檢驗出統計學意義來，但這種差異無臨床意義，如果是一種新藥，那麼這種藥物本身也就失去了批准上市的意義。因此，這裏小胖要特別提到的就是，考慮到這一點，當計算優效性試驗的樣本量時，你假設的兩組差異必須在臨床上是有意義的。

當出現第四種情況時，即統計學無意義，臨床有意義；為什麼會出現這種情況呢？很好理解，如果兩組真實差異確實很大，但樣本量太小，也會出現差異無統計學意義的結果。比如我們在上篇博文中提及的那個例子的研究 2 中，A 組和B 組 30 天死亡率分別為 7.4%和 6.3%，兩者的差異是具有臨床意義的，但由於樣本量不夠，差異無統計學意義；而當樣本量增大時，同樣的情況到了研究 1 中兩組的差異就具有統計學意義了。

完結