小胖说统计之十二：优效性试验-统计分析-临床研习社

开篇声明：1：以下内容转自网络，如有侵权，可联系删除

2. 以下观点，仅代表作者个人观点，请带着质疑的态度去阅读。如有问题，欢迎评论区留言或直接联系作者

顾名思义，优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验，看看有没有显著性差异。当两组有显著性差异后，下一步就得判断两组之间的差异是否有临床意义。这里小胖需要强调的是，统计学显著性差异并不意味着差异有临床意义。举个极端的例子，只要样本量足够大，10000 甚至 100000，哪怕是 0.01 的差异都能有统计学意义，但这个 0.01 的差异当然在临床上是不会被认可的。考虑到这一点，当计算优效性试验的样本量时，你假设的两组差异必须在临床上是有意义的。

关于优效性试验还有一个大家常碰到的问题是，究竟是单侧检验还是双侧检验呢？其实这个问题统计学界本身存在着争议，至于具体争议，小胖就不在此赘述了，小胖想让大家知道的是，现在通常优效性试验取的都是双侧 0.05 显著水平。

至于具体的统计检验，可通过双侧 0.05 显著水平或双侧 95％可信区间两种方法来实现，当然了优效性试验要求 p<0.05，或两组疗效（治疗－对照）之差的95％可信区间的下限大于 0。

让我们看一个简单的优效性试验例子：J Am Acad Dermatol 2003;48:535‐41

为了证实地氯雷他定对慢性荨麻疹的疗效和安全性，研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为 1.0 分，每组需要 100 例病人在 0.05的显著性水平上有 90％的把握能检验出两组 0.5 分或更多的差别。最后结果地氯雷他定与基线相比搔痒评分的变化为 1.05，安慰剂组为 0.52，p<0.001. 结论地氯雷他定可以有效治疗慢性荨麻疹。

以上这个例子就是一个最经典的优效性试验的例子，即通过安慰剂对照试验显示试验药物优于安慰剂，从而证实试验药物的疗效。这种安慰对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用，以前对于某种疾病还没有治疗药物的时候，一种新药物的出现，往往会选择安慰剂对照来证实疗效，当然随着越来越多标准药物的出现，以及出于伦理等方面的考虑，现在安慰剂对照的试验也开始变少，但它在药物研发中的地位是决不能抹杀的。

随着医学的发展，现在各个疾病基本上都有自己有效的治疗药物，这时我们推出一种新药，往往在选择对照时，不得不选择那些已有的有效治疗药物，所以相比较安慰剂对照试验，阳性对照试验越来越多，而阳性对照试验最理想的情况是，你的药物优于阳性对照药物，这和上文中提及的安慰剂对照试验一样，是证实你的药物的疗效的最好的也是最有力的方法。这种阳性对照的优效性试验在现在我们的临床试验中发挥了很重要的作用，怎么说呢，一种新药的出现，如果它有突破性的进展，最大的证明就是你的疗效优于现在这种疾病的标准治疗药物，而此时阳性对照的优效性试验就是你证明你疗效的最理想的选择。

小胖给大家介绍一个药物研发历史上一个很著名的阳性对照优效性试验的例子－EVIDENCE 研究。

2003 年 3 月 8 日，美国 FDA 正式批准瑞士雪兰诺公司的 Rebif （干扰素 beta‐1a）治疗复发性多发性硬化。此次 FDA 批准 Rebif 上市，打破了另外一种干扰素类药物 Avonex 的市场专有状态，Avonex 在 1996 年被批准用于多发性硬化的治疗。那么 FDA 为什么批准呢，其中最重要的依据就是一项 Rebif 与 Avonex 直接比较的研究－EVIDENCE 研究，而 Rebif 的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话，那么就可以打破原有药物的市场专有状态。

那么现在我们来看一下 EVIDENCE 的研究设计和结果吧。

EVIDENCE 研究是一项比较 Rebif 与 Avonex 两种药物治疗复发性多发性硬化效果的大规模的研究，在美国、加拿大以及欧洲的多个中心进行。677 名复发性多发性硬化病人被随机分配到 Rebif 和 Avonex 组，其中 Rebif 组 339 例，Avonex组 338 例。主要疗效终点为治疗 24 周后的无复发率。研究者把本试验设计为优效性试验，即证明 Rebif 优于 Avonex，而在进行样本量计算时，则假定 Rebif 组和 Avonex 组治疗 24 周后的无复发率分别为 65％和 50％。研究结果显示，治疗24 周后，Rebif 组和 Avonex 组无复发率分别为 74.9％和 63.3％,p= 0.0005，而在其他的次要终点方面，Rebif 组也显著优于 Avonex 组。最后研究结果证明，Rebif在治疗复发性多发性硬化方面比 Avonex 更有效。

关于阳性对照的试验，能作出优效来当然是最理想的结果，但研究者在设计这种试验时，往往会遇到一个难题，一是对照药物的选择，另一个就是你有没有把握作出优效来，如果你设计成优效试验，结果作出来确实优势，当然是皆大欢喜，但如果作不出来，两种药物没有统计学差异呢，这时对结果的解释和结论的得出往往就会变得比较复杂，最重要的一点是你不能因为两者没有统计学差异而得出两种药物疗效相当或者非劣效之类的结论，而造成结果无统计学差异的原因则有很多，并不是一句两种药物疗效相等所能解释的。

让我们来看下边这两个例子：

研究 1：随机、双盲、对照试验
- 比较两种溶栓药：SK 和 rt‐PA

- 主要终点：30 天死亡率（两分类变量）
- SK: 10370 例病人 rt‐PA: 10348 例病人
- SK: 7.4% rt‐PA: 6.3%
- 卡方检验： p=0.0028

研究 2：随机、双盲、对照试验
- 比较两种溶栓药：A 和 B
- 主要终点：30 天死亡率（两分类变量）
- A: 1000 例病人 B: 1000 例病人
- A: 7.4% B: 6.3%
- 卡方检验： p=0.37

从研究 1 和研究 2，我们能得出什么结论？
研究 1：差异有统计学意义，SK 的疗效优于 rt‐PA
研究 2：差异无统计学意义，能否得出 A 和 B 的疗效相同？

从上边的例子，我们可以看出，同样的 30 天死亡率，结果却大不相同。这里就涉及到一个对 p 值的正确认识的问题，这种问题在设计为优效性的试验中尤为常见。当 p>0.05 时，统计上说是无统计学意义，它的含义是根据当前数据，尚不足以认为两组间疗效差异具有统计学意义。

换句话说，p>0.05 是一个不是结论的结论，从统计学上说它是结论，表示无统计学意义；从临床上说，它不是结论，既不能说两药有差别，也不能说两药无差别，可能例数过少或误差过大，增大例数或减少误差就可能达到 p<0.05。就如上面的例子，当每组样本量从 1000 增加到 10000 时，同样的 30 天死亡率的比较就能达到 p<0.05。因此，我们必须在这里强调的一点就是，不能仅仅从 p>0.05就得出两药疗效相等的结论。

在优效性试验中，还会涉及到一个统计学差异与临床差异的问题。统计学差异很好理解，就是两组的差别有统计学意义，这个一般是由我们的 p 值或 95%可信区间来判断的，而临床差异呢，就是从临床角度考虑两组的差别是具有临床意义的，举个例子来说，两种降压药降压差别在 3mmHg 以上才具有临床意义。

在考察差异的临床试验中，两组差异无外乎会出现下列 4 种结果：

- 统计学和临床都有意义

- 统计学和临床都无意义

- 统计学有意义，临床无意义

- 统计学无意义，临床有意义

上边的四种情况中，出现第一种和第二种，那么结论比较明确。然而，当统计学和临床不一致时，即出现上边的第三和第四种情况时，则需要进行具体分析：

当出现第三种情况时，即统计学有意义，临床无意义；这时我们不能以统计学上的意义来取代临床上的意义，为什么呢？很简单，不管真实差异多么小，当样本量足够大时，总会检验出两组具有统计学差异。例如，上边提及的降压药，如果两组实际差别也就是 1mmHg，只要你的样本量足够大，上万，上十万，总能检验出统计学意义来，但这种差异无临床意义，如果是一种新药，那么这种药物本身也就失去了批准上市的意义。因此，这里小胖要特别提到的就是，考虑到这一点，当计算优效性试验的样本量时，你假设的两组差异必须在临床上是有意义的。

当出现第四种情况时，即统计学无意义，临床有意义；为什么会出现这种情况呢？很好理解，如果两组真实差异确实很大，但样本量太小，也会出现差异无统计学意义的结果。比如我们在上篇博文中提及的那个例子的研究 2 中，A 组和B 组 30 天死亡率分别为 7.4%和 6.3%，两者的差异是具有临床意义的，但由于样本量不够，差异无统计学意义；而当样本量增大时，同样的情况到了研究 1 中两组的差异就具有统计学意义了。

完结