小胖說統計之十三：非劣效試驗-統計分析-臨床研習社

開篇宣告：1：以下內容轉自網路，如有侵權，可聯絡刪除

2. 以下觀點，僅代表作者個人觀點，請帶著質疑的態度去閱讀。如有問題，歡迎評論區留言或直接聯絡作者

2008 年 1 月 24 日，Middlebrook 製藥有限公司宣佈 FDA 已批准其開發的阿莫西林（amoxacillin）775mg 緩釋片 Moxatag，用於每日一次口服治療 12 歲及以上青少年和成人的繼發於釀膿鏈球菌感染的咽炎和（或）扁桃體炎，而 Moxatag則成為在美獲得批准的第一個每日一次用阿莫西林緩釋製劑。

而這次 FDA 批准的主要依據則正是一項隨機雙盲平行對照的非劣效試驗。在這項試驗中，對 Moxatag 每日一次和 penicillin 每日四次進行了比較，主要終點為細菌清除率。本試驗設計為非劣效試驗，即 Moxatag 在細菌清除率方面不劣於 penicillin，非劣效界值為 10％，即 Moxatag 在細菌清除率方面與 penicillin 相差不會超過 10％。研究結果顯示，Moxatag 和 penicillin 的細菌清除率分別為 85％和 83.4％。兩者相差的 95％可信區間為（‐5.1,8.2）。其 95％可信區間的下限‐5.1是大於非劣效界值‐10 的，因此可以證實非劣效性。另外本研究在其他次要終點方面也顯示出了非劣效性。

在本試驗證實了 Moxatag 和 penicillin 在療效和安全性相當的基礎上，與penicillin 每日四次相比，Moxatag 每日一次便成爲了它的主要優勢，醫生們有了第一種可以每日一次使用治療青少年和成人咽炎和（或）扁桃體炎的阿莫西林藥物，這也就大大增加了服用的方便性，從而也提高了病人的依從性，這種每日一次的優勢也最終促使 FDA 批准了此藥物。

以上這個例子就是一個經典的非劣效試驗，在證實療效相當的基礎上，透過自己藥物的其他優勢比如服用的方便性等來獲得批准。

非劣效試驗的目的在於證明試驗組的療效是否在在某個界值上不劣於對照組。當你設計非劣效試驗時，既然你在療效上沒有什麼特別的優勢，那麼你在別的方面就應該有自己的優勢，比如說更便宜、更少的侵害、副作用更少、服用更方便等，這一點很重要，你必須找到一個你自己的優勢，這個優勢足以說服臨床醫生和藥監部門，就小胖個人體會而言，這是你設計非劣效試驗的理論基礎和前提。讓我們結合幾個例項，來看一下非劣效試驗設計時這方面的考慮：

1. 更便宜：

Righini M, Le Gal G, Aujesky D, et al. Diagnosis of pulmonary embolism by multidetector CT alone or combined with venous ultrasonography of the leg: a randomised non‐inferiority trial. Lancet 2008; 371: 1343‐1352

這是一項比較多層 CT 或多層 CT 聯合靜脈超聲診斷肺動脈栓塞的研究。在研究設計時，研究者參考了以往的一些相關研究發現多層 CT 作為一種單獨診斷的方法是安全有效的，而在多層 CT 的基礎上聯合靜脈超聲的附加價值不大。如果能證明單獨的多層 CT 不差於多層 CT 聯合靜脈超聲，那麼病人就會因為省略掉靜脈超聲而大大節省成本以及時間。因此，研究者設計了此項非劣效研究。

2. 更少的侵害：

Clinical Outcomes of Surgical Therapy Study Group. A comparison of laparoscopically assisted and open colectomy for colon cancer. N Engl J Med. 2004 May 13;350(20):2050‐9
這是一項比較腹腔鏡輔助和開放性結腸切除術的研究。衆所周知，相比於開放性手術，腹腔鏡輔助手術對人體的侵入性更小，作為一種新的治療方法，如果療效上相當，這種侵入性更小的優勢足以使得腹腔鏡輔助手術可以作為開放性手術的一種替代選擇。正是基於此考慮，研究者把此項研究設計為非劣效研究。

3. 更少的副作用：
Bingham CO III, Sebba AI, Rubin BR, et al.Efficacy and safety of etoricoxib 30 mg and celecoxib 200 mg in the treatment of osteoarthritis in two identically designed, randomized, placebo‐controlled, non‐inferiority studies. Rheumatology (Oxford). 2007 Mar;46(3):496‐507.
這是一項比較艾託考昔和塞來考昔治療骨關節炎的研究。塞來考昔是一種非甾體抗炎藥，可以作為一種止痛和抗炎藥物，但可能會導致嚴重的胃腸道副作用。由於骨關節炎病人一些潛在相關的因素以及長期大劑量使用非甾體抗炎藥，其發生與非甾體抗炎藥相關的胃病的風險大大增加。而在一些研究中，作為 COX‐2 抑制劑的艾託考昔顯示出與非甾體抗炎藥相似的療效，但有較少的胃腸道副作用。

這種情況下，如果能證明艾託考昔的療效不差於塞來考昔，其較少的胃腸道副作用則可以成為其優勢，基於以上情況，研究者設計了這項非劣效研究。

4. 使用更方便

Assessment of the Safety and Efficacy of a New Thrombolytic (ASSENT‐2) Investigators. Single‐bolus tenecteplase compared with front‐loaded alteplase in acute myocardial infarction: the ASSENT‐2 double‐blind randomised trial. Lancet. 1999 Aug 28;354(9180):716‐22.

這是一項比較替奈普酶和阿替普酶治療急性心肌梗塞的研究。就兩種藥物的使用方法而言，替奈普酶為快速灌注，而阿替普酶則需要注射 90 分鐘，顯然替奈普酶更為簡便。如果能證明替奈普酶不差於阿替普酶，其使用方法的方便性使得治療時間更短，從而使其可以成為急性心肌梗塞治療的新選擇。因此研究者把本試驗設計為非劣效性試驗。

另外，文中開始部分中提到的 Moxatag 非劣效試驗，也是基於使用更方便的考慮，這種使用的方便性有很多方面，比如上邊提到的使用時間、使用方法、劑量療程等。

當然小胖提及的上邊四種情況，往往會同時存在，比如說你原來需要住院注射治療的，現在可以口服治療了，不僅使用方法簡便了，其實因為無需住院也可以節省一部分費用，而本身注射也可能帶來注射反應等。總之，在保證與標準治療療效相當的基礎上，你必須有自己令人信服的別的方面的優勢，而這一優勢正是你的決勝之道。

一項好的非劣效試驗應該從試驗設計、試驗實施以及結果的分析和報告三個方面做到科學合理，下邊我們就依次從這三個方面，和大家一起探討一下非劣效試驗應該著重注意些什麼。

1．試驗設計
（1）研究的理由（rational）
這一部分對應的是我們研究方案中的 introduction 部分，在這部分中我們必須瞭解和陳述一些 background，然後最重要的是陳述你設計成非劣效試驗的科學依據。這些依據應該至少包括以下兩個方面：

-說明你選擇的陽性對照藥是有效的。如果以前的試驗或綜述中有表明陽性對照藥療效優於安慰劑的，應該加以詳細描述；如果沒有這方面的試驗，那麼你應該提供陽性對照藥療效的依據。一般來說，你選擇的對照藥一般是廣泛應用的，已被證實療效的標準用藥。這點不難理解，你選擇了一個沒大有效甚至說和安慰劑差不多的藥做對照，還說自己的藥非劣於它，這不找死嗎。

-說明你的試驗藥物與陽性對照藥相比如果療效相當的話有什麼別的優勢，不然的話你怎麼讓人家批你啊。。。

（2）受試者的選擇

在受試者的選擇方面，我們要注意在非劣效試驗中，你選擇受試者的標準需要和以前證實陽性對照藥療效的試驗的受試者標準儘可能保持一致。如果有一些不一致，需要進行描述和解釋，並評估其對療效的影響

（3）研究目的和研究假設

這一部分要具體說明那一個指標非劣效。通常來說，非劣效的檢驗假設都是對應主要終點。

（4）非劣效界值的選擇
非劣效界值的選擇在非劣效試驗中至關重要，可以說是非劣效試驗設計成功與否的關鍵所在，而本身非劣效界值的選擇是一個複雜的過程。
小胖在這裏需要強調的一點是對非劣效界值的確定沒有一個可以廣泛接受的所謂的金標準。對於非劣效界值的選擇，必須事先確定；而且必須建立在臨床判斷和統計合理的基礎上。那種把非劣效界值確定一股腦全部拋給統計師的做法是相當錯誤的，也是極端不負責任的，從這個角度，什麼具體規定的非劣效界值必須在 15%還有什麼 20％或者其他數字之內的說法都是不科學的。
在臨床判斷方面，非劣效界值必須小於最小的有臨床意義的差值（minimum clinically important difference，MCID）。啥意思呢，舉個例子，比如臨床上認為治療某種疾病，在應答率方面如果有超過10％的差異就算有臨床意義了，那麼我們確定的非劣效界值就不能高於10％。這也很好理解，你確定的非劣效界值如果大於這個值，比如15％了，意思是數我只要不比你差15％就行，結果呢，如果你做出來的結果是差14％，按照15％的非劣效界值，雖說滿足了非劣效界值的要求，但在臨床上你差個14％，從臨床上判斷這個差別就是有臨床意義的差別，就很難被臨床接受了。非劣效界值一般取這個最小的有臨床意義的差值的一半。當然界值的確定還需要結合臨床結局、風險收益、成本收益等各個方面進行判斷。比如說，對於某些嚴重的致命疾病比如心肌梗塞等，任何差異都可能被人們覺得是有臨床意義的，這時需要選擇一個比較窄的非劣效界值。相反地，對於那些結局較好的疾病，如果新的治療能夠在使用方法、不良反應或成本方面有十分顯著的改善，那麼稍微較寬的界值也是可以接受的。

在統計方面，非劣效界值應該小於陽性對照藥療效的95％可信區間下限，以保證新治療的療效大於最低療效。50％ rule 就是FDA推薦的一種確定非劣效界值的方法。就是說把陽性對照藥療效的95％可信區間下限的一半作為非劣效界值。這種做法得到的界值相對較為保守，而且這種做法會導致較高的假陰性率（II類錯誤）即降低顯示非劣效的把握度。

總之，非劣效界值的確定是個很複雜的工作，沒有一個統一具體的定量的規定，都是case by case的，不能搞一刀切。作為提高國內臨床試驗質量的主體，研究者包括臨床醫生必須明確自己在其中的主導作用，而不是一味地推諉給sponsor，推諉給統計師。

關於非劣效界值的確定，EMEA有一個專門的guideline，可從以下連線下載：

https://www.ema.europa.eu/en/documents/scientific-guideline/guideline-choice-non-inferiority-margin_en.pdf
（5）樣本量的計算
一旦非劣效界值確定後，樣本量的計算就相對簡單多了。這裏需要注意的是，在power方面最好提高一點，一般取90％，以減少由於機會原因造成的本來非劣效但沒顯示出來。
2．試驗實施

（1）與陽性對照藥（標準治療藥物）先前做的安慰劑對照試驗保持一致

爲了保證在非劣效試驗中不出現新藥物對陽性對照藥不公平的優勢，試驗實施必須與陽性對照藥先前做的安慰劑對照試驗保持一致。這些保持一致的因素包括病人的基本特徵，陽性對照藥的劑量、用法，觀察指標的測量等。

這一點怎麼理解呢，舉個極端的例子，比如人家證實陽性對照藥療效所做的安慰劑對照試驗中選擇的劑量是400mg，結果你在非劣效試驗中拿人家200mg做對照，這就是不公平的，更重要的是即使你非劣於人家的200mg，但人家以前證實的是400mg的療效（優於安慰劑），那你怎麼來說明你的藥優於安慰劑呢。

（2）提高試驗的敏感度（assay sensitivity）

啥叫提高試驗的敏感度（assay sensitivity）呢？通俗點講，就是提高你把有效的藥物從無效的藥物中區別出來的能力。爲了更好地區別劣效和非劣效，研究者應該努力更多地入組那些對試驗藥物和陽性對照藥物都可能有較好應答的病人，以及更容易遵循研究方案的病人，儘量減少病人的脫落等。為什麼呢？如果較多的病人能對兩個治療都不應答或病人的脫落較多，會使得兩組的療效間的差異縮寫，而產生趨於顯示非劣效的偏倚。

3．非劣效試驗的分析和結果的解釋
(1) ITT vs. PP:
“Subjects who withdraw or dropout of the treatment group or the comparator group will tend to have a lack of response, and hence the results of using the full analysis set may be biased toward demonstrating equivalence”

“無論是試驗組還是對照組，受試者退出傾向於反應的缺失，因此，對於全分析集的結果可能產生趨於等效性的偏倚”

“However, in an equivalence or non‐inferiority trial use of the full analysis set is generally not conservative and its role should be considered very carefully.”

“然而，在一個等效或非劣效試驗中，全分析集一般並不保守，其作用應該非常仔細地考慮。”

以上是 ICH E9 中對於非劣效試驗分析集的有關描述，而關於 ITT 和 PP 資料集的問題，D’Agostino 等在 Non‐inferiority trials: design concepts and issues—the encounters of academic consultants in statistics 一文中指出，ITT 分析容易使治療組和對照組更相似，而去掉那些未完成治療的病人的 PP 分析則更能反應出治療的差異。他們進一步指出，ITT 和 PP 分析結果都十分重要。而 EMEA 在 Points to Consider on switching between superiority and non‐inferiority 中則指出，對於優效性試驗，ITT 分析應該是主要分析，PP 分析則是支援性分析，而對於非劣試驗， ITT 分析和 PP 分析同等重要。

籤於此，現在大家普遍的共識是對非劣效試驗同時進行ITT和PP分析，並要求兩個分析的結果都必須支援非劣效的假設。

小胖在此還要提的一點就是對於非劣效試驗中 ITT 和 PP 分析比較的討論有很多，也各不相同。

Erica Brittain 等人比較了 11 項哮喘臨床試驗中 ITT 和 PP 分析的結果。這些試驗的主要終點是最大呼氣流速，是一個連續性變數。在這 11 項試驗中，有 5項試驗中 ITT 分析的絕對組間差異小於 PP 分析，2 項試驗 ITT 分析的絕對組間差異大於 PP 分析，其他 4 項試驗基本無差別。由於病人數量的差別，PP 分析中組間差異的可信區間的範圍總是大於 ITT 分析。由此，作者得出了這樣的結論“these trials provide no evidence that there is consistent bias in either direction”。

而 FDA 曾對 1999 年 11 月到 2003 年 1 月期間的 20 項抗感染藥物的臨床試驗中 ITT 和 PP 的結果進行了比較，結果發現 20 項試驗中有 13 項試驗的 ITT 分析的組間差異大於 PP 分析。有人可能認為由於 ITT 分析的病人數更多會使得 ITT分析的組間差異的可信區間會更窄，但結果卻發現，20 項試驗中有 12 項試驗的ITT 分析的組間差異的可信區間卻比 PP 分析更寬，這可能是因為 ITT 分析中反應率較低，更容易有更大的變異。

說了這麼多，再重複總結一點，大家比較認同的做法是，對於非劣效試驗同時進行ITT和PP分析，並要求兩個分析的結果都支援非劣效的假設。
（2）統計分析
對於非劣效試驗的統計分析方法，必須在方案中事先規定，到底是選擇治療組間差異的單側還是雙側區間。如果使用雙側，一般採用雙側95％可信區間；如果使用單側，一般採用單側97.5％可信區間。以雙側95％可信區間為例，具體的做法就是先計算治療組與對照組療效的差值，然後求其95％可信區間，看其可信區間的下限是否大於‐Δ(Δ為非劣效界值)，如果大於，則可以顯示非劣效。舉個例子：

- 治療組：85%

- 對照組：83.4%
- 非劣效界值：10％

首先計算兩組之間的差值為1.7%，差值的95％可信區間為（‐5.1,8.2），其95％可信區間的下限‐5.1是大於‐10％的，因此可顯示非劣效。

（3）結果的解釋

結論應與研究結果保持一致，在文字表達上要緊扣你最初的試驗的目的。最好我們研究報告的標題能明確寫上我們應用的是非劣效設計，比如 Diagnosis of pulmonary embolism by multidetector CT alone or combined with venous ultrasonography of the leg: a randomised non‐inferiority trial。另外討論試驗中一些潛在的偏倚也是必要的。

完結

宣告：以上文章，除了“非劣效界值的確定EMEA的guideline連結”做了修訂，其他均未小胖原文。