小胖说统计之十三：非劣效试验-统计分析-临床研习社

开篇声明：1：以下内容转自网络，如有侵权，可联系删除

2. 以下观点，仅代表作者个人观点，请带着质疑的态度去阅读。如有问题，欢迎评论区留言或直接联系作者

2008 年 1 月 24 日，Middlebrook 制药有限公司宣布 FDA 已批准其开发的阿莫西林（amoxacillin）775mg 缓释片 Moxatag，用于每日一次口服治疗 12 岁及以上青少年和成人的继发于酿脓链球菌感染的咽炎和（或）扁桃体炎，而 Moxatag则成为在美获得批准的第一个每日一次用阿莫西林缓释制剂。

而这次 FDA 批准的主要依据则正是一项随机双盲平行对照的非劣效试验。在这项试验中，对 Moxatag 每日一次和 penicillin 每日四次进行了比较，主要终点为细菌清除率。本试验设计为非劣效试验，即 Moxatag 在细菌清除率方面不劣于 penicillin，非劣效界值为 10％，即 Moxatag 在细菌清除率方面与 penicillin 相差不会超过 10％。研究结果显示，Moxatag 和 penicillin 的细菌清除率分别为 85％和 83.4％。两者相差的 95％可信区间为（‐5.1,8.2）。其 95％可信区间的下限‐5.1是大于非劣效界值‐10 的，因此可以证实非劣效性。另外本研究在其他次要终点方面也显示出了非劣效性。

在本试验证实了 Moxatag 和 penicillin 在疗效和安全性相当的基础上，与penicillin 每日四次相比，Moxatag 每日一次便成为了它的主要优势，医生们有了第一种可以每日一次使用治疗青少年和成人咽炎和（或）扁桃体炎的阿莫西林药物，这也就大大增加了服用的方便性，从而也提高了病人的依从性，这种每日一次的优势也最终促使 FDA 批准了此药物。

以上这个例子就是一个经典的非劣效试验，在证实疗效相当的基础上，通过自己药物的其他优势比如服用的方便性等来获得批准。

非劣效试验的目的在于证明试验组的疗效是否在在某个界值上不劣于对照组。当你设计非劣效试验时，既然你在疗效上没有什么特别的优势，那么你在别的方面就应该有自己的优势，比如说更便宜、更少的侵害、副作用更少、服用更方便等，这一点很重要，你必须找到一个你自己的优势，这个优势足以说服临床医生和药监部门，就小胖个人体会而言，这是你设计非劣效试验的理论基础和前提。让我们结合几个实例，来看一下非劣效试验设计时这方面的考虑：

1. 更便宜：

Righini M, Le Gal G, Aujesky D, et al. Diagnosis of pulmonary embolism by multidetector CT alone or combined with venous ultrasonography of the leg: a randomised non‐inferiority trial. Lancet 2008; 371: 1343‐1352

这是一项比较多层 CT 或多层 CT 联合静脉超声诊断肺动脉栓塞的研究。在研究设计时，研究者参考了以往的一些相关研究发现多层 CT 作为一种单独诊断的方法是安全有效的，而在多层 CT 的基础上联合静脉超声的附加价值不大。如果能证明单独的多层 CT 不差于多层 CT 联合静脉超声，那么病人就会因为省略掉静脉超声而大大节省成本以及时间。因此，研究者设计了此项非劣效研究。

2. 更少的侵害：

Clinical Outcomes of Surgical Therapy Study Group. A comparison of laparoscopically assisted and open colectomy for colon cancer. N Engl J Med. 2004 May 13;350(20):2050‐9
这是一项比较腹腔镜辅助和开放性结肠切除术的研究。众所周知，相比于开放性手术，腹腔镜辅助手术对人体的侵入性更小，作为一种新的治疗方法，如果疗效上相当，这种侵入性更小的优势足以使得腹腔镜辅助手术可以作为开放性手术的一种替代选择。正是基于此考虑，研究者把此项研究设计为非劣效研究。

3. 更少的副作用：
Bingham CO III, Sebba AI, Rubin BR, et al.Efficacy and safety of etoricoxib 30 mg and celecoxib 200 mg in the treatment of osteoarthritis in two identically designed, randomized, placebo‐controlled, non‐inferiority studies. Rheumatology (Oxford). 2007 Mar;46(3):496‐507.
这是一项比较艾托考昔和塞来考昔治疗骨关节炎的研究。塞来考昔是一种非甾体抗炎药，可以作为一种止痛和抗炎药物，但可能会导致严重的胃肠道副作用。由于骨关节炎病人一些潜在相关的因素以及长期大剂量使用非甾体抗炎药，其发生与非甾体抗炎药相关的胃病的风险大大增加。而在一些研究中，作为 COX‐2 抑制剂的艾托考昔显示出与非甾体抗炎药相似的疗效，但有较少的胃肠道副作用。

这种情况下，如果能证明艾托考昔的疗效不差于塞来考昔，其较少的胃肠道副作用则可以成为其优势，基于以上情况，研究者设计了这项非劣效研究。

4. 使用更方便

Assessment of the Safety and Efficacy of a New Thrombolytic (ASSENT‐2) Investigators. Single‐bolus tenecteplase compared with front‐loaded alteplase in acute myocardial infarction: the ASSENT‐2 double‐blind randomised trial. Lancet. 1999 Aug 28;354(9180):716‐22.

这是一项比较替奈普酶和阿替普酶治疗急性心肌梗塞的研究。就两种药物的使用方法而言，替奈普酶为快速灌注，而阿替普酶则需要注射 90 分钟，显然替奈普酶更为简便。如果能证明替奈普酶不差于阿替普酶，其使用方法的方便性使得治疗时间更短，从而使其可以成为急性心肌梗塞治疗的新选择。因此研究者把本试验设计为非劣效性试验。

另外，文中开始部分中提到的 Moxatag 非劣效试验，也是基于使用更方便的考虑，这种使用的方便性有很多方面，比如上边提到的使用时间、使用方法、剂量疗程等。

当然小胖提及的上边四种情况，往往会同时存在，比如说你原来需要住院注射治疗的，现在可以口服治疗了，不仅使用方法简便了，其实因为无需住院也可以节省一部分费用，而本身注射也可能带来注射反应等。总之，在保证与标准治疗疗效相当的基础上，你必须有自己令人信服的别的方面的优势，而这一优势正是你的决胜之道。

一项好的非劣效试验应该从试验设计、试验实施以及结果的分析和报告三个方面做到科学合理，下边我们就依次从这三个方面，和大家一起探讨一下非劣效试验应该着重注意些什么。

1．试验设计
（1）研究的理由（rational）
这一部分对应的是我们研究方案中的 introduction 部分，在这部分中我们必须了解和陈述一些 background，然后最重要的是陈述你设计成非劣效试验的科学依据。这些依据应该至少包括以下两个方面：

-说明你选择的阳性对照药是有效的。如果以前的试验或综述中有表明阳性对照药疗效优于安慰剂的，应该加以详细描述；如果没有这方面的试验，那么你应该提供阳性对照药疗效的依据。一般来说，你选择的对照药一般是广泛应用的，已被证实疗效的标准用药。这点不难理解，你选择了一个没大有效甚至说和安慰剂差不多的药做对照，还说自己的药非劣于它，这不找死吗。

-说明你的试验药物与阳性对照药相比如果疗效相当的话有什么别的优势，不然的话你怎么让人家批你啊。。。

（2）受试者的选择

在受试者的选择方面，我们要注意在非劣效试验中，你选择受试者的标准需要和以前证实阳性对照药疗效的试验的受试者标准尽可能保持一致。如果有一些不一致，需要进行描述和解释，并评估其对疗效的影响

（3）研究目的和研究假设

这一部分要具体说明那一个指标非劣效。通常来说，非劣效的检验假设都是对应主要终点。

（4）非劣效界值的选择
非劣效界值的选择在非劣效试验中至关重要，可以说是非劣效试验设计成功与否的关键所在，而本身非劣效界值的选择是一个复杂的过程。
小胖在这里需要强调的一点是对非劣效界值的确定没有一个可以广泛接受的所谓的金标准。对于非劣效界值的选择，必须事先确定；而且必须建立在临床判断和统计合理的基础上。那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的，也是极端不负责任的，从这个角度，什么具体规定的非劣效界值必须在 15%还有什么 20％或者其他数字之内的说法都是不科学的。
在临床判断方面，非劣效界值必须小于最小的有临床意义的差值（minimum clinically important difference，MCID）。啥意思呢，举个例子，比如临床上认为治疗某种疾病，在应答率方面如果有超过10％的差异就算有临床意义了，那么我们确定的非劣效界值就不能高于10％。这也很好理解，你确定的非劣效界值如果大于这个值，比如15％了，意思是数我只要不比你差15％就行，结果呢，如果你做出来的结果是差14％，按照15％的非劣效界值，虽说满足了非劣效界值的要求，但在临床上你差个14％，从临床上判断这个差别就是有临床意义的差别，就很难被临床接受了。非劣效界值一般取这个最小的有临床意义的差值的一半。当然界值的确定还需要结合临床结局、风险收益、成本收益等各个方面进行判断。比如说，对于某些严重的致命疾病比如心肌梗塞等，任何差异都可能被人们觉得是有临床意义的，这时需要选择一个比较窄的非劣效界值。相反地，对于那些结局较好的疾病，如果新的治疗能够在使用方法、不良反应或成本方面有十分显著的改善，那么稍微较宽的界值也是可以接受的。

在统计方面，非劣效界值应该小于阳性对照药疗效的95％可信区间下限，以保证新治疗的疗效大于最低疗效。50％ rule 就是FDA推荐的一种确定非劣效界值的方法。就是说把阳性对照药疗效的95％可信区间下限的一半作为非劣效界值。这种做法得到的界值相对较为保守，而且这种做法会导致较高的假阴性率（II类错误）即降低显示非劣效的把握度。

总之，非劣效界值的确定是个很复杂的工作，没有一个统一具体的定量的规定，都是case by case的，不能搞一刀切。作为提高国内临床试验质量的主体，研究者包括临床医生必须明确自己在其中的主导作用，而不是一味地推诿给sponsor，推诿给统计师。

关于非劣效界值的确定，EMEA有一个专门的guideline，可从以下连接下载：

https://www.ema.europa.eu/en/documents/scientific-guideline/guideline-choice-non-inferiority-margin_en.pdf
（5）样本量的计算
一旦非劣效界值确定后，样本量的计算就相对简单多了。这里需要注意的是，在power方面最好提高一点，一般取90％，以减少由于机会原因造成的本来非劣效但没显示出来。
2．试验实施

（1）与阳性对照药（标准治疗药物）先前做的安慰剂对照试验保持一致

为了保证在非劣效试验中不出现新药物对阳性对照药不公平的优势，试验实施必须与阳性对照药先前做的安慰剂对照试验保持一致。这些保持一致的因素包括病人的基本特征，阳性对照药的剂量、用法，观察指标的测量等。

这一点怎么理解呢，举个极端的例子，比如人家证实阳性对照药疗效所做的安慰剂对照试验中选择的剂量是400mg，结果你在非劣效试验中拿人家200mg做对照，这就是不公平的，更重要的是即使你非劣于人家的200mg，但人家以前证实的是400mg的疗效（优于安慰剂），那你怎么来说明你的药优于安慰剂呢。

（2）提高试验的敏感度（assay sensitivity）

啥叫提高试验的敏感度（assay sensitivity）呢？通俗点讲，就是提高你把有效的药物从无效的药物中区别出来的能力。为了更好地区别劣效和非劣效，研究者应该努力更多地入组那些对试验药物和阳性对照药物都可能有较好应答的病人，以及更容易遵循研究方案的病人，尽量减少病人的脱落等。为什么呢？如果较多的病人能对两个治疗都不应答或病人的脱落较多，会使得两组的疗效间的差异缩写，而产生趋于显示非劣效的偏倚。

3．非劣效试验的分析和结果的解释
(1) ITT vs. PP:
“Subjects who withdraw or dropout of the treatment group or the comparator group will tend to have a lack of response, and hence the results of using the full analysis set may be biased toward demonstrating equivalence”

“无论是试验组还是对照组，受试者退出倾向于反应的缺失，因此，对于全分析集的结果可能产生趋于等效性的偏倚”

“However, in an equivalence or non‐inferiority trial use of the full analysis set is generally not conservative and its role should be considered very carefully.”

“然而，在一个等效或非劣效试验中，全分析集一般并不保守，其作用应该非常仔细地考虑。”

以上是 ICH E9 中对于非劣效试验分析集的有关描述，而关于 ITT 和 PP 数据集的问题，D’Agostino 等在 Non‐inferiority trials: design concepts and issues—the encounters of academic consultants in statistics 一文中指出，ITT 分析容易使治疗组和对照组更相似，而去掉那些未完成治疗的病人的 PP 分析则更能反应出治疗的差异。他们进一步指出，ITT 和 PP 分析结果都十分重要。而 EMEA 在 Points to Consider on switching between superiority and non‐inferiority 中则指出，对于优效性试验，ITT 分析应该是主要分析，PP 分析则是支持性分析，而对于非劣试验， ITT 分析和 PP 分析同等重要。

签于此，现在大家普遍的共识是对非劣效试验同时进行ITT和PP分析，并要求两个分析的结果都必须支持非劣效的假设。

小胖在此还要提的一点就是对于非劣效试验中 ITT 和 PP 分析比较的讨论有很多，也各不相同。

Erica Brittain 等人比较了 11 项哮喘临床试验中 ITT 和 PP 分析的结果。这些试验的主要终点是最大呼气流速，是一个连续性变量。在这 11 项试验中，有 5项试验中 ITT 分析的绝对组间差异小于 PP 分析，2 项试验 ITT 分析的绝对组间差异大于 PP 分析，其他 4 项试验基本无差别。由于病人数量的差别，PP 分析中组间差异的可信区间的范围总是大于 ITT 分析。由此，作者得出了这样的结论“these trials provide no evidence that there is consistent bias in either direction”。

而 FDA 曾对 1999 年 11 月到 2003 年 1 月期间的 20 项抗感染药物的临床试验中 ITT 和 PP 的结果进行了比较，结果发现 20 项试验中有 13 项试验的 ITT 分析的组间差异大于 PP 分析。有人可能认为由于 ITT 分析的病人数更多会使得 ITT分析的组间差异的可信区间会更窄，但结果却发现，20 项试验中有 12 项试验的ITT 分析的组间差异的可信区间却比 PP 分析更宽，这可能是因为 ITT 分析中反应率较低，更容易有更大的变异。

说了这么多，再重复总结一点，大家比较认同的做法是，对于非劣效试验同时进行ITT和PP分析，并要求两个分析的结果都支持非劣效的假设。
（2）统计分析
对于非劣效试验的统计分析方法，必须在方案中事先规定，到底是选择治疗组间差异的单侧还是双侧区间。如果使用双侧，一般采用双侧95％可信区间；如果使用单侧，一般采用单侧97.5％可信区间。以双侧95％可信区间为例，具体的做法就是先计算治疗组与对照组疗效的差值，然后求其95％可信区间，看其可信区间的下限是否大于‐Δ(Δ为非劣效界值)，如果大于，则可以显示非劣效。举个例子：

- 治疗组：85%

- 对照组：83.4%
- 非劣效界值：10％

首先计算两组之间的差值为1.7%，差值的95％可信区间为（‐5.1,8.2），其95％可信区间的下限‐5.1是大于‐10％的，因此可显示非劣效。

（3）结果的解释

结论应与研究结果保持一致，在文字表达上要紧扣你最初的试验的目的。最好我们研究报告的标题能明确写上我们应用的是非劣效设计，比如 Diagnosis of pulmonary embolism by multidetector CT alone or combined with venous ultrasonography of the leg: a randomised non‐inferiority trial。另外讨论试验中一些潜在的偏倚也是必要的。

完结

声明：以上文章，除了“非劣效界值的确定EMEA的guideline链接”做了修订，其他均未小胖原文。