开篇声明:1:以下内容转自以下内容转自微信公众号临研解析《FDA会批依沃西单抗(AK112)否?- HARMONi研究临床数据深度解析》,如有侵权,可联系删除
2. 以下观点,仅代表作者个人观点,请带着质疑的态度去阅读。如有问题,欢迎评论区留言或直接联系作者
一、写在前面的话
今年我多次收到邀请,希望解读2025年世界肺癌大会(WCLC)上公布的依沃西单抗(AK112)HARMONi研究最新数据——特别是更新后的北美和欧洲人群长期随访结果。近期,我也注意到来自临床科研人员、医生、投资人及媒体人士的多角度评论,其中不少观点不够严谨,甚至存在明显偏误。为此,我决定从统计学视角出发,对该研究进行一次全面而深入的剖析,以澄清误解、回应关切。大家最关心的问题主要集中在以下三点:
Summit公司在2025年WCLC上公布的HARMONi最新结果中,总生存期(OS)是否具备统计学意义?
FDA于今年8月19日发布的《Approaches to Assessment of Overall Survival in Oncology Clinical Trials Guidance for Industry》指南,是否会影响AK112的审评与获批?
基于HARMONi研究目前公布的OS更新数据,AK112还有被FDA批准地可能么?
二、正文
要回答上述问题,我们首先需要深入解读2025年WCLC大会上发布的HARMONi研究数据。
—— 2.1 HARMONi研究的设计 ——
HARMONi研究的设计如图1所示。该研究共纳入438例既往接受过三代TKI治疗的患者,按1:1随机分配至试验组(AK112 + 化疗)与对照组(安慰剂 + 化疗),采用PFS与OS双主要终点。研究计划在积累约231例PFS事件时进行PFS主要分析,同时开展OS期中分析;待OS事件数累积至约261例时,再进行OS最终分析。
乍看之下,HARMONi的研究设计似乎并无特别。但进一步分析可以发现,其策略实际上相当复杂且罕见。例如,图1显示首例患者于2022年1月入组,亚洲末例患者入组时间为2022年11月,前后仅10个月;而西方人群(北美与欧洲)的首例入组时间为2023年5月(图2),末例入组为2024年10月,较亚洲人群整整晚了两年。此外,图1左下角的注释说明,基于亚洲人群的HARMONi-A研究主要终点为PFS,且AK112已凭借PFS阳性结果在中国获批上市。由此可见,HARMONi实际上是在HARMONi-A(注:该研究人群与HARMONi并不完全一致,但约87%符合HARMONi入排标准)完成入组后,策略性地将一个区域型研究扩展为全球多中心试验。这一转变源于2022年12月Summit Therapeutics与康方生物达成的一项总额高达50亿美元的授权协议,使Summit获得了AK112在北美、欧洲等地区的开发与商业化权益。该交易于2023年初完成,从而推动了上述研发策略的调整。
这一策略调整看似巧妙:不仅节约了样本量,更可望加速该产品在欧美地区的上市进程。然而,在巧妙的表象之下,却为后续的统计分析埋下了重大隐患。
图1. 研究设计
—— 2.2 分析时间截点 ——
除了研究设计,本研究的统计分析时间节点(图2,该信息未在2025 WCLC中公布)同样关键,对理解OS结果至关重要。图2显示,PFS主要分析于2024年7月进行,而该时点也同步开展了OS期中分析(如前述研究设计中提及)。随后,在2025年4月进行了OS最终分析与PFS总体分析;2025年9月则进一步发布了西方人群长期随访的OS结果。注释部分亦说明,西方人群延长随访的目的在于增加该人群的随访时长,且在进行OS主要分析时,亚洲人群数据已锁定。明确这一背景有助于后续理解各项OS分析,避免混淆,可惜该信息未在WCLC中明确说明。接下来的数据分析部分则相当精彩。
图2. 入组时间和分析时间截点
—— 2.3 人口学与基线特征 ——
人口学与基线特征结果如图3所示。总体上,两组间数据分布均衡,为统计分析结果提供了基础。但存在一个小问题:安慰剂组中有1例患者未接受三代TKI治疗。根据统计分析原则,仍将按意向治疗(ITT)集进行分析,但后续需进行敏感性分析,以评估该例缺失对结果的影响。
图3. 人口学和基线特征
—— 2.4 主要终点PFS主要分析和最终分析 ——
第一个主要终点PFS的主要分析结果(于2024年7月进行,同时包括OS期中分析)如图4所示。PFS达到统计学意义并不意外,因为HARMONi-A的主要终点即为PFS,且基于该结果AK112已获NMPA批准。但有两点值得注意:首先,PFS分析基于345例患者,而非全部438例。这是因为PFS主要分析需在累积约231例PFS事件时进行(参见前文研究设计解读),而分析时事件数已达275例,此时总入组为345例,因此无需等待后续西方人群入组完成。其次,尽管PFS的风险比(HR)为0.52,且P<0.0001,但中位PFS仅延长2.4个月。
图4. 主要终点PFS结果
接下来是PFS的亚组分析(图5)。总体而言,各亚组趋势与总人群一致。但需重点关注亚洲人群与西方人群的结果:初步来看,西方人群的获益似乎优于亚洲人群(HR分别为0.30与0.56),且均具统计学意义。
图5. PFS亚组分析结果
Summit还对脑转移患者进行了更细致的亚组分析(图6)。总体来看,无论患者是否伴有脑转移,均显示PFS获益,且差异具有统计学意义。通常,伴脑转移的肿瘤患者疗效较差,但AK112在该亚组中显示出更优的获益(HR=0.34),优于无脑转移患者(HR=0.59)。
图6. PFS亚组分析结果 – 脑转移人群
此外,2025年4月还进行了PFS的最终分析,该分析基于全部438例患者(图7)。结果显示,PFS的HR由主要分析时的0.52变为0.57。亚组分析中,西方人群的HR为0.67,较图5中的0.30有所升高,且统计学意义已接近临界值。此外,针对PD-L1表达水平的亚组分析显示,两组的HR分别为0.55与0.62,差异不大。尽管PFS进行了多次分析,需注意是关键注册临床试验的结论应基于首次达到事先定义且满足I类错误控制的分析,本研究中是主要分析结果。因此,本次PFS总体分析结果仅供参考,不影响图4的既定结论。
图7. PFS主要分析 vs 长期随访分析
—— 2.4 主要终点OS主要分析和西方人群长期分析 ——
接下来是另一个主要终点OS的主要分析结果(2025年4月),如图8所示。Summit将其解读为“显示良好的获益趋势”,并指出西方人群数据尚不成熟。从结果来看,OS主要分析确实未达到统计学意义(HR=0.79,P=0.057)。Summit并未回避该结果,其在今年5月30日发布的公告中表述为:“依沃西单抗联合化疗在OS主要分析中呈现积极趋势,但未达到统计学意义的获益,HR=0.79(95%CI:0.62-1.01;p=0.057)”。至此,两个主要终点(PFS与OS)的主要分析结果均已明确:PFS具统计学意义(P<0.0001),而OS未达统计学意义(P=0.057)。
那么,这是否意味着HARMONi研究失败?答案不能一概而论,需视方案中对PFS与OS双主要终点的具体设定而定。一般而言,若PFS与OS为共同主要终点(Co-Primary),则要求两者均达统计学意义方为成功;若仅为双主要终点而非共同主要终点,则只需其一具统计学意义即可。HARMONi研究中PFS与OS是否属于共同主要终点,需查阅方案具体规定,但Summit迄今未在公开场合明确说明。然而,在其5月30日发布的同一公告中,提及FDA的反馈如下:“Based on discussions with the United States Food & Drug Administration (FDA), under our determination and subject to our review, Summit will consider the timing of the filing of this BLA. The FDA noted that a statistically significant overall survival benefit is necessary to support marketing authorization, which will weigh into Summit’s considerations regarding the timing of a potential BLA filing. 主要意思是:基于与FDA的讨论,Summit将综合考虑BLA提交时机。FDA指出,具有统计学显著性的OS获益是支持上市批准的必要条件,这将影响Summit对潜在BLA提交时间的考量。”显然,FDA希望看到具统计学意义的OS结果以支持批准。因此,可认为本研究中PFS与OS为共同主要终点。
此外,抛开统计学意义,从图8的KM曲线可见,两组在前10个月内几乎无差异,10个月后AK112的疗效才开始显现,且HR仅约0.8;两组中位OS相差2.8个月。
最后,图8亦指出,总人群的中位随访时间为29.7个月,而西方人群仅9.2个月(西方人群入组较亚洲人群晚1年4个月,图2)。因此Summit认为,西方人群随访时长不足可能导致OS差异未显现——因为从现有KM曲线看,前10个月内组间差异难以区分。基于此,Summit决定继续对西方人群进行随访,以期延长随访后的数据能显示统计学差异,从而有了2025 WCLC上公布的西方人群长期随访OS数据。具体结果如何?让我们继续往下看。
图8. 主要终点OS主要分析
众人期待已久的西方人群长期随访OS结果终于在本次WCLC中揭晓(图9)。额外约5个月的随访(注:亚洲人群未继续随访,数据已锁定,见图2)增加了29例OS事件,结果显示组间OS差异具统计学意义(HR=0.78,P=0.0332)。该结果看似理想,似乎满足了FDA所要求的具统计学显著性的OS结果。
但请注意,前文已说明,本研究的统计学结论应基于事先规定且有I类错误控制的分析,本研究即OS期中分析和主要分析结果。显然,OS其中分析和主要分析已判定未达统计学意义,胜负已定。此处的P=0.0332仅相当于“正式比赛后的两人私下比拼的结果”,该结果显然不具备法定效力。因此,Summit在幻灯中将该P值称为“名义(nominal)结果,即仅针对当前数据的检验结果。然而,在整体临床试验中,需严格控制假阳性(I类错误)率不超过0.05,不能仅凭单次P值是否小于0.05判定统计学意义。实际上,本研究的最后一次统计意义判定在最终分析时已完成!关于I类错误控制的具体细节,此处不展开讨论。
图9. 主要终点OS - 西方人群长期随访分析
Summit亦基于西方人群长期随访数据进行了亚组分析(尽管意义有限)。重点对比西方人群与亚洲人群的HR(0.84 vs. 0.76),可见西方人群的OS获益略逊于亚洲人群。可能原因如前所述:组间差异需在10个月后方可区分,亚洲人群随访时间充足,而西方人群随访较短,该差异或源于随访时长不均。
然而,此处存在一个极为隐蔽的问题:西方人群总体HR为0.84,其中北美人群HR为0.7。那么,欧洲人群的HR是多少?尽管Summit未公布该数据,但显然欧洲人群的OS HR远高于0.84。鉴于欧洲人群事件数占西方人群近半,可推测其HR约0.96,接近1.0,表明AK112对欧洲患者几乎无效。因此,西方人群内部的OS结果存在显著异质性!!
图10. 主要终点OS -长期随访亚组分析
—— 2.5 ORR和DoR分析 ——
随后是客观缓解率(ORR)与缓解持续时间(DoR)的结果(图11)。对于III期研究,ORR与DoR仅为次要终点。总体而言,AK112数据优于安慰剂组,但未超出预期。
图11. ORR和DOR结果
—— 2.6 安全性分析 ——
疗效数据之后是两组的安全性概况(图12)。总体来看,AK112的治疗相关不良事件(TRAE)发生率略高于安慰剂组,但组间TRAE分布差异不大,符合预期。常见TRAE谱亦无显著差异,表明AK112总体安全性可接受。
图12. 治疗相关AE结果
随后是免疫相关与VEGF相关不良事件(图13)。毫无疑问,作为一款PD-1/VEGF双抗,AK112的相关AE发生率必然高于安慰剂组,结果符合预期。3级及以上TRAE发生率不高,仍属可接受范围。
图13. 免疫相关和VEGF相关的AE
—— 2.7 总结 ——
最后为总结部分(图13)。PFS无需多言;OS方面,Summit的总结亦很专业,尽管长期随访OS的P值为0.0332,但并未声称其具统计学意义,仅客观描述结果。
图14. 总结
三、问题解答
最后,回到开篇提出的三个问题。通过前文的详细解读,相信各位心中已有答案,但实际情况可能比想象中更为复杂。
问题一:今年WCLC公布的HARMONi最新数据中,OS是否具有统计学意义?
根据Summit幻灯描述,HARMONi对OS共进行了三次分析:2024年7月的期中分析、2025年4月的OS最终分析,以及2025年9月的OS长期随访分析。前两次为计划内分析,均设有统计成功的判定标准,且研究总体I类错误α=0.05已分配于这两次分析。然而,前两次分析OS均未达统计学意义。最后一次分析属于事后(Post-Hoc)分析,仅能作为探索性结果,其是否具统计学意义已无关紧要。
问题二:FDA于8月19日发布的OS评估指南是否影响AK112获批?
许多公众号文章将该指南的发布视为对AK112审评的负面信号。然而,该指南的发布仅是FDA的常规动作,对AK112的审评几无影响。
首先,根据我多年与监管机构在肿瘤临床试验领域的交流经验,FDA早已推崇OS作为肿瘤临床试验的金标准,只是此前未正式发布指南。在常规沟通中,针对III期试验,FDA一贯高度重视OS。例如,HARMONi研究中FDA要求将OS作为共同主要终点,且需具统计学意义方可支持批准;而HARMONi-A的主要终点为PFS,OS仅为次要终点,NMPA亦批准上市。
其次,本次发布的指南为征求意见稿,待征集意见后方发布生效版本,即该指南尚非正式版本。最后,HARMONi西方人群于2023年5月开始入组,表明在此之前Summit已与FDA就方案设计与细节达成一致,后续试验执行将依此进行,通常不受后续法规影响,除非出现重大考量或实际情况变化。
问题三:基于最新OS数据,AK112获FDA批准的可能性有多大?
这是一个复杂的问题。我并非FDA决策人员,无法妄下定论。俗话说“欲加之罪,何患无辞”,若FDA欲批准某药,可罗列诸多理由;反之亦然。尽管如此,我们仍可从以下几方面推测AK112获批的可能性:
1. 主要终点的统计学与临床意义
a) PFS:达统计学意义,中位PFS延长2.4个月。
b) OS:未达统计学意义,中位OS延长2.8个月。
若方案定义为共同主要终点,则本研究从统计学角度视为失败。
2. 地区人群比例及疗效/安全性贡献
作为全球多中心研究,若要在FDA获批,西方人群比例通常不应过低(一般需>1/3)。HARMONi中西方人群占38%(N=165)。然而,受研发策略影响,存在两个重大隐蔽问题:
a) 西方人群疗效贡献不足:尽管占比38%,但决定PFS与OS疗效的是事件数而非患者数。西方人群在PFS与OS主要分析时的事件数占比分别为6.4%(18例PFS事件)与17.9%(47例OS事件),因此PFS与OS的疗效仍主要由亚洲人群贡献。
b) 西方人群内部数据异质性:前文OS分析已揭示欧洲与北美人群的巨大差异,该结果难以令人信服其在西方人群中的一致性,势必使FDA审评陷入两难。
3. 安全性数据
基于前文分析,AK112的安全性总体良好。同时,AK112尚有其他多项III期研究,大人群数据足以支撑其安全性。然而,HARMONi研究存在一个不可忽视的问题:西方人群安全性贡献不足。尽管西方患者占比38%,但安全性评估除人数外,更关键的是药物暴露时长(即安全性随访时间)。西方人群与亚洲人群的中位随访时间分别为13.7个月与32.7个月。因此,总人群的安全性数据仍主要由亚洲人群贡献。
4.适应症与药物迫切性
监管机构批准药物时,适应症对有效药物的迫切需求亦是关键考量。可从两方面评估该适应症的未满足需求:
a) Summit多次在公告中强调该领域的困境:“在这一临床背景下,美国及其他西方地区仍存在高度未满足需求,获批选择有限,且既往PD-1单抗在III期全球临床试验中均未显示PFS或OS获益(本研究的两大主要终点)。” 即截至目前,在EGFR突变、经三代TKI治疗的NSCLC患者中,尚无PD-1抑制剂在III期研究中取得成功(无论PFS或OS)。
b) 基于PFS主要分析数据,安慰剂组中位PFS为4.4月。换言之,若患者接受常规化疗,半数将在约4个月内疾病进展或死亡。这意味着,此50%的患者他们需要一种有效的治疗手段,这是他们迫切的需求。
5.既往与FDA的沟通基础
Summit在启动HARMONi研究前,必然已与FDA就研究设计及上市路径等关键问题达成共识。具体细节决定了AK112的注册路径,但我们无从得知。然而,前文OS主要分析部分已知FDA对OS的态度:需具统计学显著性。
6.AK112是否仍有获批可能?
基于以上五点,AK112获批的希望似乎渺茫。然而,是否全无机会?我的答案是:仍有希望。HARMONi研究的关键问题在于OS主要分析未达统计学意义,而其根源在于西方人群随访时长不足,导致疗效未能充分显现;此外,西方人群内部的OS异质性可能源于样本量不足所致的随机变异。综合考虑AK112的PFS获益与安全性无重大隐患,以及适应症对药物的迫切需求,AK112仍存在获批机会。
最可能的批准方式是:基于HARMONi结果附条件批准,同时要求开展一项独立的西方人群III期试验,以验证OS的显著性、西方人群内部一致性及长期安全性。
四、写在后面的话
通过前文分析不难发现,令Summit与康方生物困扰的HARMONi结果,根源在于其大胆的研究设计与激进的研发策略。然而,我仍钦佩Summit敢于创新的思路,以及其说服FDA同意在区域性研究临近结束时将其扩展为全球多中心试验的能力。若该研究成功,必将成为前无古人、后无来者借鉴的研发策略典范。实际上,HARMONi研究本有极大成功机会,但Summit未能把握。从事后视角出发,若能重来,我们可通过以下优化扭转结局:
1.样本量计算不合理
导致OS未达统计学意义的最关键因素,应该是样本量估计存在重大失误。研究设计部分指出,PFS与OS主要分析所需事件数分别为231与261,两者相差无几,且OS还需进行一次期中分析。由此可推测,Summit在计算样本量时假设OS的HR约0.67(而2023年12月HARMONi-A研究的OS HR为0.80),严重高估了AK112的OS疗效,导致OS事件数不足,最终无法呈现统计学差异。这是一次严重的误判!
2.未利用期中分析进行样本量调整
若Summit在初始样本量计算时因缺乏OS精确估值而激进估算尚可理解,那么在OS期中分析(2024年7月)已获初步疗效数据后,他们本有机会重新估算样本量,却错过了这一关键窗口。
最后,HARMONi研究还有一个隐蔽的统计学问题由于篇幅问题无法进一步在本文中阐述。那就是根据Summit公布的研究设计,HARMONi对OS进行了两次关键分析(2024年7月期中分析与2025年4月最终分析)。而在此前HARMONi-A的NDA过程中,按NMPA要求(2024年ASCO数据)亦进行了两次OS分析(2023年6月与2023年12月)。因此,从HARMONi研究整体视角,其I类错误控制可能存在不科学之处。
据此,我计划在近期对2024年ASCO公布的HARMONi-A数据作一次单独深入解析,敬请期待!
完结






0条评论