摘要:背景:临床实践中采用多种风险预测模型对卵巢癌患者进行风险分层,将其分为低风险组和高风险组。在 ROCkeTS 研究中,我们旨在通过在真实世界环境中对风险预测模型进行直接比较,确定针对有症状卵巢癌患者的最佳诊断方法。本文报告了绝经后队列的研究结果。
英国绝经后疑似卵巢癌症状患者风险预测模型(ROCkeTS):一项多中心前瞻性诊断准确性研究
背景: 临床实践中采用多种风险预测模型对卵巢癌患者进行风险分层,将其分为低风险组和高风险组。在 ROCkeTS 研究中,我们旨在通过在真实世界环境中对风险预测模型进行直接比较,确定针对有症状卵巢癌患者的最佳诊断方法。本文报告了绝经后队列的研究结果。
方法: 在这项多中心、前瞻性诊断准确性研究中,我们招募了来自英国23家医院的16-90岁新就诊的女性患者,这些患者均有非特异性症状,且CA125升高或超声检查结果异常(或两者兼有)。这些患者通过快速通道、择期门诊或急诊就诊转诊。CA125正常、直径小于5厘米的单纯性卵巢囊肿、活动性非卵巢恶性肿瘤、既往卵巢恶性肿瘤病史、妊娠或拒绝经阴道超声检查的患者均被排除在外。本分析仅纳入绝经后患者。所有参与者均填写了症状问卷,提供了血液样本,并由国际卵巢肿瘤分析联盟(IOTA)认证的超声医师进行了经腹部和经阴道超声检查。指标测试包括:恶性肿瘤风险评估1(RMI1),阈值为200;恶性肿瘤风险算法(ROMA),阈值为多个;附件不同肿瘤的IOTA评估(ADNEX),阈值分别为3%和10%;IOTA SRRisk模型,阈值分别为3%和10%;IOTA简易规则(恶性、良性或不确定);以及CA125,阈值为35 IU/mL。事后分析中,由于卵巢附件报告数据系统(ORADS)是在招募完成后才提出的,因此采用既定方法,根据IOTA超声变量推导出了10%阈值的ORADS。指标测试由对参考标准结果不知情的研究人员进行。比较对象为阈值为250的RMI1(英国国家医疗服务体系目前的护理标准)。参考标准为3个月内通过手术或活检获得的组织学或细胞学检查结果,或12个月随访时患者自述的卵巢癌诊断。主要结局指标为预测原发性浸润性卵巢癌与良性或正常组织学结果的诊断准确性,通过分析具有明确参考标准结果和可用指标检测数据的参与者的敏感性、特异性、C指数、受试者工作特征曲线下面积、阳性预测值和阴性预测值以及校准曲线进行评估。本研究已在国际标准随机对照试验注册中心(ISRCTN17160843)注册。
研究结果: 2015年7月13日至2018年11月30日期间,共招募了1242名绝经后患者,其中215名(17%)患有原发性卵巢癌。166名参与者的数据缺失、不确定或存在其他参考标准结果;因此,最多使用1076名参与者的数据来评估主要结局的指标检测。与RMI1检测(灵敏度250,敏感性82.9% [95% CI 76.7%至88.0%],特异性87.4% [84.9%至89.6%])相比,IOTA ADNEX检测(灵敏度10%)的灵敏度更高(差异为-13.9% [-20.2%至-7.6%],p
解释: 鉴于其灵敏度高于 RMI1(250),尽管特异性有所下降,我们建议将 IOTA ADNEX(10%)视为绝经后卵巢癌患者新的标准诊断方法。
情境研究
本研究之前的证据
我们检索了OVID MEDLINE、OVID Embase和Cochrane图书馆,查找自数据库建立至2024年6月3日发表的文章,检索词包括“ROMA”、“IOTA ADNEX”、“ORADS”、“IOTA simple rules”和“RMI”。我们没有找到任何直接比较所有这些检测方法在特定或预先设定的患者人群中与同一参考标准进行对比的前瞻性研究。我们发现了一些研究,探讨了这些检测方法的不同组合。这些研究大多在高发人群(即超过35%的参与者最终被诊断为卵巢癌,且通常为晚期)和专科医院环境中进行,并由专家进行超声检查。这些特点降低了现有研究结果在非专科医院或社区诊所环境中的适用性,而这些场所正是分诊工具最常用的地方。
这项研究的附加价值
卵巢癌检测准确性评分优化(ROCkeTS)研究通过一项前瞻性、高质量的诊断准确性研究,对所有常用的临床风险预测模型进行直接比较,旨在确定最佳诊断检测方法,用于对出现卵巢癌症状且检测结果异常的绝经后患者进行分诊。该研究采用组织学或随访的共同参考标准,在预先设定的患者人群中进行,并制定了明确的纳入和排除标准,从而降低了混杂因素的可能性,提高了检测比较的有效性。由于ROCkeTS仅招募新近出现症状的患者,主要招募首次就诊的患者(快速通道门诊),因此ROCkeTS人群的卵巢癌患病率较低(17%),早期癌症患者比例较高(42%),更适用于评估风险预测模型,优于以往发表的研究人群。
所有现有证据的意义
ROCkeTS 研究结果显示,基于超声的国际卵巢肿瘤分析(IOTA)附件不同肿瘤评估(ADNEX)模型具有极高的敏感性。ROCkeTS 研究还表明,由非专业超声医师操作的基于超声的风险预测模型也能达到较高的准确率,这对临床实践具有重要价值。IOTA ADNEX 模型在 10% 的阈值下有望显著提高卵巢癌风险预测的敏感性,我们建议将其取代英国绝经后患者的标准诊断测试(恶性肿瘤风险指数 1)。然而,将其应用于临床实践可能会增加假阳性率,因此需要通过引入其他复杂的影像学检查进行密切监测,以减轻假阳性对个人和医疗系统的负担。ROCkeTS 研究强调,在指南认可和临床应用之前,风险预测模型需要在相关人群中进行高质量的前瞻性临床试验评估。卵巢附件及报告数据系统(ORADS)的性能特征需要在前瞻性研究中进一步探究。未来的研究需要探讨如何将人工智能等快速发展的新兴技术与这些已验证的模型相结合。
介绍
全球卵巢癌的发病率估计约为每年31万人,死亡人数超过20万人。不幸的是,大多数卵巢癌患者确诊时已处于晚期,过去十年高收入国家的10年生存率一直维持在35%左右。 因此,更早、更准确地诊断卵巢癌有望提高患者的生存率。
卵巢癌通常伴有非特异性症状,例如持续性腹胀(如腹胀)、饱胀感、食欲不振或两者兼有、盆腔或腹部疼痛、尿频、尿急或两者兼有、不明原因的体重减轻、疲劳或排便习惯改变。大多数出现这些症状且检查结果异常的患者并非患有卵巢癌;在英国国家医疗服务体系 (NHS) 通过快速转诊(一种加速转诊途径)转诊的患者中,仅有约 3% 的绝经前女性和 18% 的绝经后女性最终被诊断为卵巢癌。建议全科医生和家庭医生在对出现症状的患者进行 CA125 肿瘤标志物检测和盆腔超声检查之前,详细询问病史并进行体格检查。在英国,CA125 或超声检查结果异常的患者将通过快速转诊途径转诊至医院,由妇科医生进行评估。医院妇科医生随后会使用风险预测模型、测试或评分,将患者分诊至三级医疗机构,接受妇科癌症的专科手术治疗。初级保健医生和医院进行准确的分诊并快速转诊至关重要,因为在妇科癌症专科中心接受最大程度肿瘤细胞减灭术的卵巢癌患者的生存率高于接受较小范围手术的患者,而且这种分诊方式还能将癌症治疗资源集中用于风险最高的患者。
目前,全球医院在临床分诊中广泛应用多种风险预测模型,这些模型结合了临床、生物标志物和超声指标,其中包括恶性肿瘤风险指数1(RMI1;英国国家医疗服务体系NHS的现行标准)、恶性肿瘤风险算法(ROMA)、国际卵巢肿瘤分析联盟(IOTA)开发的附件不同肿瘤评估(ADNEX)超声模型,以及美国放射学会开发的卵巢附件和报告数据系统(ORADS)超声模型。ORADS模型于2020年引入临床实践,但尚未经过前瞻性验证。在英国,RMI1评分大于250的患者会被分诊至三级癌症中心,由妇科肿瘤外科医生进行进一步治疗;而RMI1评分小于250的患者则由妇科医生在二级医疗机构进行治疗。
这些建议所依据的数据主要来自一些研究,这些研究纳入了大量癌症患者,其中大部分处于晚期,而且这些患者都是经过严格筛选后转诊到癌症中心的,因此尚不清楚这些风险预测模型在癌症患病率较低的真实世界环境中是否表现良好。
一项Cochrane系统评价纳入了58项研究,这些研究大多在卵巢癌高发(即转诊患者中癌症患病率>35%)的专科医院进行,且超声检查均由专家操作。大多数研究的人群中晚期癌症患者比例较高,在这些人群中,临床怀疑腹水和腹膜疾病通常会首先进行CT成像和活检,因此使用微创预测模型进行分诊并不适用。这些特点限制了风险预测模型在非专科医院或社区诊所(这些机构通常使用分诊工具)中的应用。此外,Bossuyt及其同事的一项系统评价强调了卵巢癌诊断准确性研究的质量较差,大多数研究存在“歪曲事实”和“过度解读”的情况,导致研究结果对潜在生物标志物的性能过于乐观。
为了使风险预测模型具有临床意义,它需要在低患病率地区具有较高的诊断准确性,以便区分早期癌症和良性组织学类型,尤其是在新就诊人群中。超声判读受操作者经验的影响,因此,大多数超声检查是由非专业操作者进行的,因此需要评估超声模型在非专业操作者操作下的表现。此外,由于卵巢癌的患病率和主要组织学类型在绝经前和绝经后人群中存在差异,因此需要分别报告模型在这两个人群中的表现。
在“卵巢癌检测准确性评分改进”(ROCkeTS)研究中,我们调查了风险预测模型在诊断新发症状的绝经前和绝经后卵巢癌患者中的准确性,其中超声模型由非专业人员操作。本文将介绍绝经后队列的研究结果。
讨论
我们的研究结果表明,在初诊有症状的绝经后患者中,IOTA ADNEX 在 3% 和 10% 阈值下以及 ROMA 在 14.4 阈值下(低于制造商推荐的 29.9 阈值)的敏感性在我们评估的所有诊断测试中最高,超过 96%。在这三项测试中,IOTA ADNEX 在 10% 阈值下的特异性最高,为 58.5%。ROMA 在 29.9 阈值下的敏感性与 RMI1 在 250 阈值下的敏感性相似,但特异性显著降低。主要和次要结局分析以及敏感性分析的结果均一致。在接受通过 IOTA 质量评估的医生进行的超声检查的参与者亚组以及从高容量中心招募的参与者亚组中,也获得了类似的结果。根据主要结果定义,ORADS 在诊断卵巢癌的敏感性方面与 RMI1 相似,但特异性明显较低。
尽管与RMI1相比,IOTA ADNEX的特异性显著降低,但我们仍推荐将10%的IOTA ADNEX作为新的标准治疗方案,因为它具有更高的灵敏度,且特异性下降幅度小于其他灵敏度超过96%的模型。我们参与者和患者权益倡导代表以及项目监督小组的政策专家都强烈支持我们优先考虑灵敏度而非特异性的做法。
优先考虑敏感性而非特异性会增加假阳性的风险,从而给患者带来焦虑,并增加医疗系统不必要的负担。我们之前的研究发现,接受卵巢癌诊断检测的女性焦虑和痛苦程度较高;然而,绝经后女性的焦虑和痛苦程度通常低于接受卵巢癌诊断检测的绝经前女性。将 IOTA ADNEX 应用于临床诊疗时,必须考虑如何减轻假阳性结果对个人和医疗系统的影响,例如,对于 IOTA ADNEX 评分在 10% 至 50% 之间的患者,可以增加 MRI 检查作为附加检查,以便在患者接受手术前进一步确定肿瘤是良性还是恶性。值得注意的是,一些假阳性结果的患者即使接受了手术,也可能因为盆腔肿块的症状而选择手术,而与检测结果无关。
目前正在进行一项关于采用新的诊断标准(例如 IOTA ADNEX,阈值为 10%)的卫生经济学分析,这将为卫生政策决策提供关键见解。
尽管RMI1和IOTA简易规则的性能与既往研究一致,但ROMA、ADNEX和ORADS的性能却存在显著差异。与我们的研究相比,多项研究表明IOTA ADNEX的特异性更高,但不同医疗中心之间存在差异。Timmerman及其同事对4500多例主要由专家进行超声检查的患者进行了一项回顾性研究,探讨了IOTA两步策略的性能,该策略包括使用简易描述符进行初步分诊,然后应用IOTA ADNEX,并将其与ORADS进行了比较。在10%的风险阈值下,ORADS词汇表的敏感性为92%(95% CI 87–96),特异性为80%;而IOTA两步策略的敏感性为91%,特异性为85%。然而,ROCkeTS 与 Timmerman 及其同事的研究之间存在一些关键差异,这些差异可以解释测试性能的差异。首先,患者人群存在差异;ROCkeTS 的 2596 名参与者(绝经前和绝经后)中有 1741 名(67%)是通过快速转诊途径招募的——即首次转诊至医院(选择性较低)——而在 Timmerman 及其同事的研究中,68% 的参与者来自癌症中心(即高度预选人群)。其次,ROCkeTS 是一项前瞻性研究,预先设定了纳入和排除标准,而 Timmerman 及其同事的研究是回顾性研究。第三,ROCkeTS 中进行超声检查的 133 名专业人员中有 119 名(89%)是二级超声医师,而 Timmerman 及其同事的研究中,他们主要是超声医学专家。
一项先前的研究调查了IOTA ADNEX在三家由非专科超声医师操作的医院中的表现,结果表明,当由不同培训和经验的超声检查者进行外部验证时,ADNEX模型的性能得以保持;然而,参与研究的两家英国医院此前均参与过IOTA研究,且由在超声领域享有国际声誉的首席研究员领导,其中一位首席研究员还是IOTA的创始成员。因此,这两家医院的超声医师可能拥有许多NHS医院所不具备的专业知识。
ROCkeTS研究中绝经前和绝经后卵巢癌患者的组织学类型和手术结果此前已有描述,结果显示,大多数通过症状触发检测确诊的患者肿瘤细胞减灭率高,且癌症扩散程度低至中等。25%的高级别浆液性卵巢癌患者在I期或II期确诊,这强调了对非特异性症状患者进行准确诊断的重要性。ROCkeTS研究主要通过快速转诊招募患者,但也纳入了急诊入院或择期门诊就诊的患者。急诊患者通常病情危重,无法进行完整的肿瘤分期,这可能是本研究中8%的卵巢癌患者分期数据缺失的原因。
我们认为 ROCkeTS 研究具有多项优势。该研究仅招募了新近出现症状的患者,因此卵巢癌的患病率较低(17%),早期癌症的比例较高(42%),且与既往发表的文献相比,该人群更适用于风险预测模型的评估。这是一项务实的研究,反映了从基层医疗机构或社区诊所转诊至医院的患者群体,我们认为这是其关键优势。与许多既往发表的研究采用高度预测试人群不同,我们的研究人群相对未经筛选,更适合用于评估诊断试验的准确性。然而,ROCkeTS 研究纳入的患者群体在症状类型和严重程度方面存在异质性,这反映了社区和基层医疗机构面临的难题。
ROCkeTS研究采用预先设定的方案、统计分析计划和样本量进行前瞻性研究。进行指标测试的受试者对参考标准的结果不知情。研究强制要求受试者接受超声培训和质量评估(尽管并非所有超声医师都完成了足够的扫描以完成质量评估)。研究护士在多个研究中心进行招募,从而减少了选择偏倚。12个月随访时的结局数据通过直接从受试者和研究护士处获得的信息得到可靠确认。缺失数据得到了妥善处理。统计分析独立于临床研究人员和超声专家进行。我们根据患者自述的阴道出血史将患者分为绝经前组和绝经后组,以应对不同绝经阶段的诊断挑战。绝经前组的结果将另行报告。
此外,我们的分析仔细地描述了诊断测试的性能,以及转移性卵巢癌和交界性肿瘤(二次分析)与原发性卵巢癌(一次分析)的贡献。
ROCkeTS 研究也存在一些局限性。我们招募的受试者主要为白人,因此研究结果可能不适用于其他种族或族裔的患者。研究的招募和随访工作已于 2019 年 10 月完成;然而,由于 COVID-19 疫情的影响,各研究中心在数据清理和样本分析方面面临挑战,分析工作被推迟至 2023 年。尽管样本储存在 -80°C,但 HE4(ROMA 检测的关键成分)在冻融循环中的稳定性已得到证实;因此,样本分析的延迟不太可能影响研究结果。尽管存在这种延迟带来的局限性,但我们的研究结果仍然适用于临床实践,因为 ROCkeTS 分析了全球所有常用风险预测模型和评分的性能。在国际上,过去 10 年中唯一引入临床的卵巢癌新诊断检测方法是 ORADS,我们在 ROCkeTS 研究中对其进行了事后分析。我们遵循了关于IOTA ADNEX和其他风险预测模型解读和分析的最新指南。虽然一些晚期癌症患者因身体状况不佳或焦虑而未能入组,但符合筛查条件的参与者招募率仍达到81%。
在实际临床实践中,患者接受盆腔超声检查时,操作者经验水平参差不齐。ROCKeTS 研究力求尽可能地模拟真实临床环境。ROCKeTS 研究中,绝经前和绝经后患者中,71% 的超声检查由 38 位通过超声质量评估的医师完成。然而,大多数未完成质量评估的超声医师所进行的检查数量较少,这可能导致包含超声检查的指标测试的特异性低于预期。但是,在招募量大的中心,基于超声的指标测试的特异性与所有中心总体的特异性相似,这表明本研究中报告的包含超声检查的指标测试的特异性可能代表了该人群的真实特异性。由于未收集相关数据(我们使用的是ORADS 1版),我们无法评估2024年ORADS 2版更新中包含的两项超声特征——双眼囊肿或实性病变的阴影——的贡献;这种遗漏的影响尚不确定。
尽管我们的研究采用准确性指标评估诊断测试的性能,但我们并未提供净获益或临床效用方面的数据,而这些数据在理解测试性能方面可能与准确性指标同样重要,尤其是在影响临床决策方面。目前正在进行一项卫生经济学分析,该分析对于理解我们研究结果的更广泛影响至关重要。此外,值得注意的是,ROCkeTS 研究结果的影响可能因公立和私立医疗系统的指南遵循程度而异。
Risk-prediction models in postmenopausal patients with symptoms of suspected ovarian cancer in the UK (ROCkeTS): a multicentre, prospective diagnostic accuracy study - PubMedTwitterFacebookLinkedInGitHubTwitterSM-FacebookSM-Youtube
来源:可靠儒雅小学生一点号