摘要:肺癌是全球发病率和死亡率最高的恶性肿瘤之一,其中非小细胞肺癌(NSCLC)占所有肺癌病例的85%。尽管近年来新的治疗方案不断进展,NSCLC的五年生存(OS)率仍然不容乐观,仅约为26.4%。淋巴结转移(LNM)是NSCLC患者常见的转移方式之一,严重影响患者
*仅供医学专业人士阅读参考
研究利用机器学习模型为NSCLC患者的LNM风险评估提供了新的视角。
肺癌是全球发病率和死亡率最高的恶性肿瘤之一,其中非小细胞肺癌(NSCLC)占所有肺癌病例的85%。尽管近年来新的治疗方案不断进展,NSCLC的五年生存(OS)率仍然不容乐观,仅约为26.4%。淋巴结转移(LNM)是NSCLC患者常见的转移方式之一,严重影响患者的预后。目前,尽管临床上有多种方法可用于评估LNM,但存在一定局限性(如成本、准确性等),迫切需要开发一种非侵入性、经济且相对准确的LNM预测方法。
随着机器学习(ML)预测模型在各个学科和医学领域的广泛应用,其在乳腺癌、前列腺癌和肝癌的预后及远处转移预测方面显示出良好的效果。然而,目前尚未有针对NSCLC患者LNM的机器学习预测模型。基于这一背景,近期发表在BMC Pulmonary Medicine杂志的一项研究中[1],研究者利用监测、流行病学和最终结果(SEER)数据库,开发了六种新型机器学习模型,旨在提高LNM的预测准确性。本文特此整理关键信息,以飨读者。 图1 研究封面样本选择
研究通过SEER*stat软件下载了路径学诊断为NSCLC患者的临床数据。纳入标准包括:病理类型为NSCLC;诊断年份在2010年至2018年之间;提供完整的人口学和临床特征数据;NSCLC为第一原发肿瘤。排除标准包括:淋巴结状态未得到病理确认;淋巴结状态未知;重复记录ID的NSCLC患者。纳入流程图见图2。图2 研究样本纳入流程图研究关键因素与变量
关键人口学和临床特征包括:年龄、性别、种族、组织学、原发部位、分级、TNM分期、肿瘤大小、骨转移、脑转移、肝转移和肺转移。根据年龄,患者被分类为“统计分析
研究者使用Kaplan‒Meier曲线比较伴有或不伴有LNM的NSCLC患者的OS率和肺癌特异性生存(LCSS)率,并通过受试者工作特征曲线(ROC)确定年龄和肿瘤大小的最佳截断值。受试者随机分为训练集和验证集(7:3),使用卡方检验评估基线特征差异,采用LASSO回归筛选LNM的显著变量,并通过多变量逻辑回归识别候选独立风险因素。基于这些因素构建了六种机器学习预测模型,包括广义线性模型(GLM)、随机森林(RF)、极端梯度提升(XGB)、人工神经网络(ANN)、支持向量机(SVM)和朴素贝叶斯模型(NBM),并在内部验证中采用10折交叉验证。通过ROC及曲线下面积(AUC)评估不同模型的预测能力,同时考量敏感性、特异性和准确性。进行亚组分析以验证最佳模型在不同T期人群中的表现,并利用概率密度函数(PDF)和临床效用曲线(CUC)评估预测性能。P值研究结果患者基线特征:淋巴结阴性组和淋巴结阳性组之间存在显著差异研究共招募了64012名患者。纳入(N=64012)和排除(N=631)患者在人口统计学和临床特征方面没有显著差异。在总队列(N=64012)、训练队列(N=44808)和验证队列(N=19204)中,所有变量均无显著差异(表1)。此外,在纳入的患者中,有26611名(41.57%)发生了LNM,而37401名(58.43%)没有发生LNM。淋巴结阴性和淋巴结阳性组之间的变量存在显著差异。表1 训练队列和验证队列中NSCLC患者的特征生存分析和截断值选择Kaplan-Meier曲线结果显示,LNM患者与OS(HR=3.46, 95%CI,3.38-3.55,P
图3 伴和不伴LNM的NSCLC患者的OS(A)和LCSS(B)的Kaplan-Meier曲线
危险因素分析:NSCLC患者发生LNM的关键特征通过LASSO回归分析排除肝转移和肺转移的影响后,将剩余的11个变量纳入多变量逻辑回归分析。分析结果揭示了10个与非小细胞肺癌淋巴结转移独立相关的风险因素,包括年龄、性别、种族、组织学类型、原发肿瘤部位、肿瘤分级、T分期、M分期、肿瘤大小和骨转移(见表2)。Cramer's V相关性分析生成的相关性热图显示,这10个独立风险因素之间并无显著相关性(见图4)。表2 NSCLC患者LNM危险因素的多因素logistic回归分析图4 风险因素相关性热图不同预测模型中风险因素的重要性评估在6个模型中,肿瘤分级在3个模型中的重要性排名第一。此外,在大多数模型中,肿瘤分级、M分期、T分期和肿瘤大小的重要性均位列前四。图5 不同模型中不同风险因素的重要性
ML预测模型的构建和验证
GLM模型的列线图如图6A所示。RF模型由464棵决策树组成,能够更好地区分有无LNM的NSCLC患者(见图6B)。在XGB模型中,M期、分级和T期三个重要变量对NSCLC患者LNM的影响显著(见图6C)。ANN模型由三层神经网络组成(见图6D)。ROC曲线表明,GLM模型在训练(AUC=0.811,95%CI,0.807−0.815)和验证(AUC=0.810,95%CI,0.803−0.816)两个队列中的预测能力最好。此外,GLM模型在敏感性、特异性和准确性方面相较于其他五个模型表现更优(见图7)。图6 不同模型的表现结果图7 验证队列中不同ML模型的ROC曲线GLM模型的最佳阈值概率和亚组分析
在临床中,准确诊断LNM与准确诊断无LNM同等重要。根据本研究的分析,40.7%被用作临床判断的阈值概率。无LNM患者和有LNM患者的准确预测概率分别为71.20%和73.20%。此外,亚组分析结果显示,GLM模型在T1、T2、T3和T4人群中的AUC分别为0.768、0.731、0.747和0.784。敏感性、特异性和准确性结果均表明GLM模型具有良好的预测能力(图8)。图8 预测LNM风险的列线图及在各T分期人群中的ROC曲线研究总结与展望综上所述,GLM在六种不同的ML算法中表现最佳,其预测能力在不同T分期亚组分析中均得到了验证。此外,研究还确定了多个独立风险因素(包括年龄、性别、种族、组织学类型、原发部位、分级、T期、M期、肿瘤大小和骨转移)均能够显著影响LNM风险。尽管本研究的结果具有较高的准确性和临床应用潜力,但仍存在一些局限性。首先,研究为回顾性研究,数据来源于SEER数据库,缺乏一些重要的LNM风险因素,如吸烟状态、经济基础和突变类型等。其次,研究样本主要来自美国,尚不能确定该模型在其他国家和种族中的适用性。此外,本研究仅进行了内部验证,缺乏有效的外部验证。展望未来,开展前瞻性研究并纳入更多有益的风险变量有望进一步验证和提高模型的准确性,从而为临床医生提供一种非侵入性、经济实惠且便捷的工具,以帮助其制定合理的治疗策略,改善患者预后。参考文献:[1]Wu, B., Zhu, Y., Hu, Z. et al. Machine learning predictive models and risk factors for lymph node metastasis in non-small cell lung cancer. BMC Pulm Med 24, 526 (2024). 审批编号:CN-148444 有效期至:2025-03-03本材料由阿斯利康提供,仅供医疗卫生专业人士参考
来源:医学界肿瘤频道
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!