摘要:在非劣效性试验的生存分析中,主要关注的是事件发生的时间,如疾病的复发时间、患者的生存时间等。样本量估算的基本原理是基于对试验组和对照组生存曲线的比较,通过确定合适的样本量,使得在给定的检验效能下,能够以较高的概率检测出试验组与对照组之间的生存差异不超过预先设定
作者/风仕
上期已经讲完非劣效性试验 + 连续变量的样本含量估计,这期开始讲非劣效性试验 + 生存分析的样本含量估计
,主要从基础知识、问题与数据、对问题分析及PASS软件操作进行讲解。
基础知识
1.基本原理
在非劣效性试验的生存分析中,主要关注的是事件发生的时间,如疾病的复发时间、患者的生存时间等。样本量估算的基本原理是基于对试验组和对照组生存曲线的比较,通过确定合适的样本量,使得在给定的检验效能下,能够以较高的概率检测出试验组与对照组之间的生存差异不超过预先设定的非劣效界值。通常会利用生存分析的相关统计方法,如 Cox 比例风险模型等,结合预期的风险比、事件发生率以及设定的非劣效界值等参数来计算所需的样本量。
2.设计特点
在非劣效性试验中,观察指标为生存时间等时间 - 事件数据,同时考虑到截尾数据的情况,用于评估试验组的生存情况是否不劣于对照组。
3.影响样本量的因素
(1)非劣效界值:这是一个关键参数,它表示在生存分析中,临床上可以接受的试验组相对于对照组在生存方面的最大允许劣效程度。一般以风险比(HR)或生存概率的差异来表示。非劣效界值越小,意味着对试验组的疗效要求越高,需要更大的样本量来验证其非劣效性。例如,若将非劣效界值设定为 HR = 1.2,即表示试验组的风险不超过对照组的 1.2 倍,就认为试验组非劣效。如果将界值设为 1.1,则需要更多的样本量来证明非劣效性。
(2)预期风险比:试验组和对照组预期的风险比是影响样本量的重要因素。如果预期风险比接近 1,说明两组的生存情况较为相似,需要较大的样本量才能准确判断非劣效性;反之,如果预期风险比与 1 相差较大,所需样本量相对较小。例如,预期风险比为 0.9 比预期风险比为 0.7 的情况,要证明非劣效性需要更多的样本量。
(3)事件发生率:事件发生率越高,所需的样本量越小。因为在相同的样本量下,事件发生越多,越能准确地估计生存曲线和风险比。例如,在研究某种癌症的治疗药物时,如果预期对照组的 5 年生存率为 30%,试验组为 40%,那么与预期对照组 5 年生存率为 60%,试验组为 70% 的情况相比,前者需要更大的样本量来证明非劣效性。
(4)检验效能:一般取 80% 或 90%,表示在真实存在非劣效差异的情况下,能够正确拒绝无效假设(即认为试验组劣于对照组)的概率。检验效能越高,所需样本量越大。例如,从 80% 提高到 90% 的检验效能,样本量会相应增加。
(5)随访时间:随访时间的长短会影响样本量。较长的随访时间可以观察到更多的事件发生,从而提高估计的准确性,但也会增加研究的成本和难度。如果随访时间过短,可能无法观察到足够的事件,导致样本量估计不准确。因此,需要根据研究的疾病特点和预期事件发生时间来合理确定随访时间。
4.估算方法
样本量估算较为复杂,常用的方法是基于生存分析的假设检验,如利用对数秩检验或 Cox 比例风险模型进行计算。具体公式涉及到较多的参数估计和假设,一般需要借助专门的统计软件进行计算。例如,可根据 Pocock 等提出的方法,通过估计对照组和试验组的累积风险函数,结合非劣效界值、把握度和检验水准等因素来计算样本量。
5.注意事项
参数估计的准确性:在估算样本量之前,需要对非劣效界值、预期风险比、事件发生率等参数进行合理估计。这些估计值应该基于以往的研究数据、临床经验或相关文献。如果参数估计不准确,可能导致样本量过大或过小,影响试验的效率和结果的可靠性。例如,对事件发生率的估计过高,会使计算出的样本量过少,无法准确检测出组间的生存差异。
删失数据:生存分析中常常会出现删失数据,即由于各种原因(如患者失访、研究结束时事件未发生等)导致部分数据不完整。在样本量估算时,需要考虑删失数据的比例和分布情况,采用适当的方法进行处理,以保证结果的准确性。一般来说,如果删失比例较高,需要适当增加样本量来弥补删失数据带来的信息损失。
比例风险假设:许多生存分析方法(如 Cox 比例风险模型)基于比例风险假设,即两组的风险比在整个随访期间保持不变。在实际研究中,需要对这一假设进行检验和评估。如果比例风险假设不成立,可能需要采用其他更合适的方法进行分析,同时样本量估算也需要相应调整。
多中心试验的影响:如果是非劣效性试验是多中心试验,不同中心之间可能存在患者特征、医疗水平等方面的差异,这可能会影响生存结果和事件发生率。因此,在样本量估算时,需要考虑中心效应,适当增加样本量以保证结果的稳定性和可靠性。可以采用分层分析或在模型中加入中心变量等方法来处理中心效应。
伦理和实际可行性:确定样本量时要兼顾伦理和实际情况。一方面,要确保样本量足够大,以获得可靠的研究结果,为临床决策提供依据;另一方面,也要避免样本量过大,导致过多的患者暴露于试验风险,增加研究的成本和难度。需要在保证试验科学性和伦理合理性的基础上,综合考虑研究资源、时间等因素,确定合理的样本量。
问题与数据
某研究者拟开展一项非劣效的随机对照试验,探讨某免疫抑制剂对肺癌的疗效。估计对照组的中位生存时间( mOS)为 8 月,假设试验组相对于对照组的 HR 的非劣效性界值为 1.3。研究的入组时间预计为 T1 =10 月,随访时间计划为 T2 =12 月。试验组对照组比例 1:1。取α =0.025(单侧),把握度 1-β =0.8。 则需要多少样本量?
对问题分析
在介绍样本量计算之前 ,首先介绍几个参数的概念。
1. 中位生存时间 mOS:即 50%的患者死亡时所对应的时间。如果将所有患者生存时间按从小到大排序, 中位生存时间即顺序处于中间的患者的生存时间。
2. 入组时间:入组患者很难瞬间完成 ,尤其对于发病率比较低的肿瘤 ,因此患者入组往往要经过相对 较长的时间。入组时间为第 1 例患者入组到最后一例患者入组所经历的时间。
3. 随访时间:在最后一例患者入组完成后 ,还需对所有患者随访一段时间。从最后一例患者入组 ,到 试验截止日期的间隔称为随访时间。注意 ,这里的随访时间 ,跟患者的观察时间意义不同。
如果一个临床试验入组时间为 12 个月,随访时间为 24 个月,那么对于第一例入组的患者,其观察时间 最长为 12+24=36 个月(尽管该患者可能在试验截止前就已死亡)。而对于最后一例入组的患者 ,其 最长观察时间为 24 个月 ,即各个患者观察时间不同。观察时间越长 ,观察到结局发生的可能性越大。
如图 1 的 3 号患者 ,其观察时间(33 个月)大于研究的随访时间(24 个月)。
图 1. 入组时间、随访时间和观察时间示意图
4. 入组模式
是指研究对象入组的速度是匀速(等比例)还是非匀速。常见的入组模式是匀速入组 ,即单位时间内, 研究对象入组的数量相等(图2)。
图 2. 匀速入组示意图
5. HR:风险比 ,是两组患者瞬时死亡概率之比 ,是衡量干预效果最常用的参数。
除此之外该类参数还有死亡风险( Hazard Rate) ,死亡率( Mortality ,如 5 年死亡率) ,生存率
(Proportion Surviving)。这些参数都可以进行相互换算 ,例如在生存数据满足指数分布假设下 ,试 验组与对照组的:
HR 可近似计算为:
6. HR 的非劣效性界值:根据既往文献、临床意义选定。 HR 的非劣效性界值为 1.3 表示 ,试验组与对 照组的 HR 值不大于 1.3 时 ,则认为试验组药物不劣于对照组药物。
7. 检验水准α和把握度 1-β , 与其他样本量计算意义相同 ,不再赘述。
PASS软件操作
本文仅以 mOS 为例,介绍 PASS 软件的操作。如使用其他参数,可以按照公式进行推算后,再在 PASS 中计算。
1. 选择 Non-Inferiority → Survival → Logrank Tests for Non-Inferiority
(或者 Survival → Logrank → Non-Inferiority → Logrank Tests for Non-Inferiority,两者是一样 的)
2. 如下图填写相对应的参数后 ,点击 Run。
参数说明:
1. 对照组 Hazard Rate: 可根据 Hazard rate = ln2 / mOS 计算得到。本例中 ,对照组 Hazard Rate = ln2 / 8 = 0.086643398
2. Proportion Lost or Switching: 是指两组失访和转变治疗组的比例 ,可根据实际情况填写。本例 中未设定。
四、结果解释
结果有两个 ,首先给出的是样本量 ,即两组各需要 299 名患者 ,总样本量 598。
然后给出的是试验所需的死亡事件数 ,即该试验需要 457 例死亡事件。
注:① 决定试验 Power 的因素,实际上是死亡事件数而不是样本量本身,死亡事件数由α、β和 HR 三 者决定。样本量是通过需要的死亡事件数、两组的死亡概率和试验持续时间推算出来的。
试验持续时间越长,获得同样的死亡事件数量所需的样本量就会越小,有兴趣的小伙伴可以延长随访时 间加以验证。其他参数对样本量的影响涉及复杂的样本量计算过程 ,在此不做详述。
② PASS 中参数不能直接填写入组速度。有时入组速度是受现实情况影响较大的因素,本例中入组速度 需要 59.8/月 ,研究者需要估计试验能否达到这样的水平 ,如果高于此水平 ,可以缩短入组时间 ,如果 低于此水平则必须延长入组时间 ,然后重新计算样本量。
五、撰写结论
本研究为非劣效的随机对照试验,采用 Logrank 法比较两组患者生存时间的差异。估计对照组的中位生 存时间( mOS)为 8 月 ,假设试验组相对于对照组的 HR 的非劣效性界值为 1.3。
试验需要 598 例研究对象(两组分别 299 例)才能在α =0.05(双侧)的显著水平下获得 90%的把握度 检测到此差异。试验计划入组 10 个月 ,随访 12 个月 ,在发生 457 例死亡事件时进行最终分析。
生存分析的方法
生存分析主要涉及到三种方法:
1.非参数法: Logrank 检验等
2.半参数法 :Cox 回归分析
3.参数法:生存数据服从特定分布如指数分布、weibull 分布时采用的分析方法
非参数检验对数据分布的要求较低 ,因此结果更加可信,一般肿瘤试验主要结局的分析都要基于非参数检验法。非参数检验法又分 Logrank 检验,Wilcoxon 检验等 ,区别在于对死亡事件的早晚有不同的权 重。Logrank 检验对晚期死亡事件权重较大,而 Wilcoxon 检验等对早期死亡事件权重更大。一般肿瘤 治疗药物临床试验会采用 Logrank 检验法。
非参数法主要用于比较两组生存曲线是否存在差异 ,回答“是否有效”的问题 ,但无法衡量效果大小。 我们希望能够获得一个指标更直观地测量治疗效果,通常会采用 HR,而 HR 要通过 Cox 回归才能获得, 因此临床试验中也要用到 Cox 回归计算干预措施的 HR ,但用 Logrank 检验的 P 值作为试验主要结局是否阳性的依据。另外 ,在次要结局和探索性分析中 ,往往会采用 Cox 回归进行分析。
参数法对数据分布的要求较高 ,它假定数据服从一定的分布 ,一般不采用。 临床试验中样本量的计算要基于主要结局的分析 ,因此多基于 Logrank 法。
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
来源:孙医生工作室