临床试验ITT与PPS分析集结果矛盾？且看这篇柳叶刀文章如何化解

摘要：《柳叶刀》近期发表了一项关于妊娠38周引产预防肩难产的随机对照实验，意向性治疗集（ITT集）未到达统计学意义，而符合方案集分析（PPS集）发现妊娠38周提早引产疑似大于胎龄儿（LGA）的婴儿可以降低肩死产的风险，并且对新生儿的二次结局没有影响。

《柳叶刀》近期发表了一项关于妊娠38周引产预防肩难产的随机对照实验，意向性治疗集（ITT集）未到达统计学意义，而符合方案集分析（PPS集）发现妊娠38周提早引产疑似大于胎龄儿（LGA）的婴儿可以降低肩死产的风险，并且对新生儿的二次结局没有影响。

然而这个研究没有达到主要终点，还被中途叫止，几乎被判为死刑。作者如何从研究设计和统计分析的角度中救活这篇文章并发表在柳叶刀，今天我们来剖析和学习一下。

在研究设计中初见端倪

文章的立意很简单。既往发表的两篇系统评价中，一篇认为从妊娠37周引产降低了严重肩难产的发病率RR=0.60，95% CI 0.37-0.98，而另一篇则无统计学意义RR=0.57，95% CI 0.30–1.08。为了进一步研究提前引产的益处和危害，这篇文章的研究者设计了这项至今最大规模的引产预防肩难产的随机对照试验。

这项Ⅲ期试验采用开放、随机对照设计。在英国英格兰、苏格兰及威尔士的106家医院开展。

受试者纳入标准为：孕35⁺⁰周至38⁺⁰周时超声估测疑似LGA胎儿（胎儿体重超过个体化生长曲线第90百分位数）且年龄≥18岁的孕妇。

干预措施：试验组严格在孕38⁺⁰周至38⁺⁴周进行引产，对照组则采用医院标准护理。胎龄会明显影响婴儿大小以及肩难产发生率。为了让两组间的胎儿产生足够的差距（胎龄差≥10.5d，出生体重差≥300g），研究者设定对照组在39⁺⁴周之前非必要不鼓励引产。

结局：研究主要结局为肩难产的发生率，次要结局为胎龄、出生体重、住院时间、以及一系列新生儿及产妇的安全性指标。

在缺乏发病率背景信息的情况下，估计临床试验的样本量有很大的不确定性，很多研究者不知道如何写样本量计算过程，这篇文章很值得借鉴。

样本量估算

作者参考既往试验肩难产基线发生率（3.9%），将其四舍五入为4%（是的，原文就是这么写的，直白地阐述你调整参数的原因，即使是发表柳叶刀）。

假设提前引产可减少2/3的肩难产发生风险（RR=0.32），在90%检验效能，α=0.05条件下，需要3253名参与者。由于肩难产发生率存在不确定性，研究者将样本量进一步增加到4000人。

到这还没结束。研究者也设立了数据监测委员会（DMB），以便一旦主要终点达到目的，就停止招募。

临床试验的样本量计算经常是在满足可解释性的前提下，拍脑袋定的。既然结局发生率不确定，那我就把样本量保守设高一些，万一实际发病率足够高DMB就会及时结束研究，避免过度的资源投入。这项在isrctn网站上的注册信息显示，研究者甚至在2022年将样本量从7000修改到4000人。总之，即使样本量计算存在许多不确定因素，也要将过程写有理有据。

分析集设定：研究设定意向性治疗（ITT）和符合方案集（PPS），主要分析人群为ITT集。

分析集设定

研究对ITT集进行了修正，直接删去了主要结局缺失的患者（不填补）。这也是目前临床试验中的常见操作，将由于某种原因离开了试验，没有接受干预的人群从ITT集中剔除出去，形成modified ITT集。但是这篇文章由于主要结局只有0.3%缺失，作者直接将modified ITT当作ITT进行分析，也是打了个马虎眼。

PPS集则是严格限定引产组在38⁺⁰周至38⁺⁴周之间引产，对照组在妊娠38⁺⁴周前未开始分娩。

临床研究面对数据缺失，“填补“并非总是最优选择。在样本绝对量足够的前提下，小比例缺失（＜5%）直接删去并不影响结果的稳健性。这篇文章里由于缺失比例较小，作者也开门见山表示不需要开展敏感性分析“due to the small proportion of participants with missing data, no sensitivity analyses imputing missing data were done. “

统计方法：采用广义线性模型计算相对风险RR及95%CI，对临床中心、估计胎儿体重百分位数、产妇年龄进行调整。

主要结局低于预期，被迫停止

这项研究的入组时间从2018年6月到2022年10月，最终2893人进入随机，1666人因为拒绝随机进入外对照队列。

排除结局缺失受试者后，ITT分析集引产组1445例，对照组1439例，肩难产发生率为2.3% vs 3.1%，RR=0.75（95%CI 0.51-1.09），无统计学意义。由于对照组的肩难产率低于预期（3.1% vs 4%），原本计划的4000样本量需要扩大至12884人才能达到90%的功效。而且招募率受新冠影响，每周只能纳入10人。数据监测委员会因此建议试验停止入组。

PPS集肩难产引产组和对照组分别1180例和1047例，肩难产发生率2.3% vs 3.7%，RR=0·62 (95% CI 0·41–0·92)，有统计学意义。

这就麻烦了，ITT集为阴性结果，PPS集又是阳性结果。方案中规定以ITT分析为首要分析，那整个试验就要宣告失败了吗？

作者不甘心啊，文章焦点转移至两组间的胎儿结局分析，试图找出主要结局不理想的原因。

在ITT集中，引产组和对照组平均妊娠时间均差-6天（95%CI: -6.3, -5.6）,平均体重均差为-163.6g（95%CI: -190.0, -137.1）。

而在PPS集中，组间平均妊娠时间均差扩大至-8.1天（95%CI: -8.4, -7.9），平均体重均差-213.3g（95%CI: -242.0, -184.6）。

由此可以发现，组间的平均妊娠和体重差异明显小于方案预计的10.5天和300g，这反映出对照组出现了大量早于预期的分娩，进而导致对照组的基线肩难产发生率（3.1%）低于样本量假设（4%）。而PPS集的胎儿组间特征差异进一步扩大可能逆转了ITT集的结果。

在安全性方面，两组间并未发现明显差异。对照组1例新生儿死于肩难产后围生期窒息，提前引产组 1 例新生儿死于脓毒症和先天性肺炎。引产组和对照组的不良事件发生率6·1% vs 7·5%，RR值为0·81 (95%CI:0·62, 1·06）。两组报告的严重不良事件数量相似。

利用讨论，扭转结论

讨论部分是这篇文章的精华，作者不再对ITT集结果进一步解释，而是通过一系列递进逻辑引导读者接受PPS集的观点。

作者讨论的第二段就开始花大量篇幅解释主要结局不理想的原因。随后写下了对全文至关重要的一句话” Therefore, our per-protocol analysis supports the idea that a woman with a suspected LGA baby who opts for induction between 38+0 and 38+4 weeks' gestation can expect to have a lower risk of shoulder dystocia at delivery than if she waits for labour to start spontaneously.” 这句话的用词很有意思，作者没说ITT结果是正确的，而是用“per-protocol analysis supports the idea”这样的表达来引导阅读者接受PPS集的阳性结果。

随后，作者开始引用其他文章的结果来支持自己在次要结局中发现的“胎儿组间特征差异进一步扩大可能逆转了ITT集的结果”这一观点，这也侧面支持了PPS集结果的可预见性。

作为一项大规模的随机对照临床试验，方案里实际要求了需要保证引产组和对照组间胎儿保持一定的胎龄和体重差异。然而这项研究并未做到这点，实为质量控制上的遗憾。作者也明白如此，他紧接着开始诉苦“新冠疫情对研究的影响太大了”、“我们给予孕妇大量的时间思考是否接收干预”、“开放设计让一线工作人员对于对照组也倾向于提早引产”。这些原因的描述有针对性地减轻了读者对研究质量的怀疑。

还没结束，作者又开始从统计学的角度发力，试图再扳回一局。“虽然试验提前结束，但我们的研究仍然是最大的肩难产预防随机对照试验。虽然样本量没有达到预期，但它意味着仅是没有达到方案预计90%的功效。功效低一些的结果也并非完全不可信，而且我的PPS集结果也有统计学差异啊”。至此，通过一些系列论证，作者将PPS集的结果推上最终的研究结论。

随后讨论部分来到了研究局限性部分，经过上文那么多篇幅的自证，局限性内容肯定不能再拆自己的台。于是作者写两点跟试验停止、PPS结果毫无关系的局限性。

最后，作为一项大型随机对照试验，其结果自然有足够的证据强度，作者进一步归纳文章结果对临床实践的重要性，把文章价值推至高潮。

小结

这篇文章能发表在柳叶刀上，显然具备足够的临床意义，毋庸置疑。而作者在全文中的处处铺垫和逻辑引导最终将这篇主要终点不成功的文章抢救了回来。文章作者或许与外审专家经过了反复的切磋。

如果你去阅读原文，会发现这篇文章的方法、结果和讨论部分比其他临床试验更为啰嗦。在讨论部分，有2/3的内容都是从各个角度将PPS集结论包装为主要结论。

由研究者发起的临床试验存在着各种各样的困难，而且绝大数没有签CRC。这篇文章中，样本招募来自106所合作中心，可以想象完成这种规模临床试验的质控难度，完全落到了一线临床工作者头上。

对于临床试验来说，ITT集和PPS集的结果不一致确实是个大难题，与我们团队合作开展统计分析的研究者也有发生类似的情况。这里还是祝愿各位临床试验的研究者们试验顺利，发文顺利！

参考文献：

Induction of labour versus standard care to prevent shoulder dystocia in fetuses suspected to be large for gestational age in the UK (the Big Baby trial): a multicentre, open-label, randomised controlled trial.Gardosi, Jason et al.The Lancet, Volume 405, Issue 10491, 1743 - 1756