摘要:SHAP(SHapley Additive exPlanations)是用来解释机器学习模型预测结果的方法。它基于博弈论中的Shapley值概念,为模型的每个特征分配重要性值,从而解释模型的预测过程。
SHAP(SHapley Additive exPlanations)是用来解释机器学习模型预测结果的方法。它基于博弈论中的Shapley值概念,为模型的每个特征分配重要性值,从而解释模型的预测过程。
而今天这篇文章,于2025年5月1日发表在JAMA子刊《JAMA Network Open》(医学一区top,IF=10.5),题为:“Deep Learning Model of Primary Tumor and Metastatic Cervical Lymph Nodes From CT for Outcome Predictions in Oropharyngeal Cancer”,用SHAP分析可视化COX回归模型中各变量的重要性,这个思路不多见,这样做可行吗?
一起看看文章中如何表达!
研究设计
原发性肿瘤 (PT) 和转移性颈部淋巴结 (LN) 特征与口咽鳞状细胞癌 (OPSCC) 预后高度相关。目前,缺乏结合两个区域的成像特征来预测 p16+ OPSCC 结果的研究。
因此,在这项研究中,研究者构建了多区域影像风险评分(SwinScore),用于不同临床分期患者的生存结局预测。
研究分析了来自 3 个独立队列的 811 例接受根治性放疗或放化疗的 p16+ OPSCC 患者。
癌症影像档案库(TCIA)来源随机分配了 452 名患者(86.6%)来形成训练集(D1);
而其余 70 名患者(13.4%)形成了内部验证集(D2);
来自克利夫兰诊所基金会(CCF) 和Winship癌症研究所(Winship)来源的患者合并形成外部测试集(D3)。
以 D1 的中位风险评分为阈值,划分高、低风险组,并绘制 Kaplan–Meier 曲线、计算风险比(HR),差异以 Log‑rank 检验评估。随后,在 AJCC 第 8 版定义的每个癌症分期组中进一步进行了相同的 Kaplan-Meier 生存分析。
为可视化多变量 Cox 回归模型中各变量的重要性,我们计算了 Shapley 加法解释(SHAP)值,并使用蜂群图对其进行可视化。
评分在总体及各分期中的预后价值
研究者采用 D1 的中位多区域影像风险评分(–0.5)将患者分为高、低风险组,并将该分界值同样应用于 D2 与 D3,进行 Kaplan–Meier 生存分析。
在外部测试集 D3 上,一致观察到多区域影像风险评分对三项终点的显著预后价值。
1.无病生存期(DFS,HR 3.76,95% CI 1.99–7.10;P
2.总生存期(OS,HR 4.80,95% CI 2.22–10.40;P
3.局部区域治疗失败率(LRF,HR 4.47,95% CI 1.43–14.00;P =0 .01;C 指数 0.63)。
多变量 Cox 比例风险回归确认多区域影像风险评分为独立预后因素:
DFS(HR 2.08,95% CI 1.30–3.33;P =0 .002)
OS(HR 3.58,95% CI 1.96–4.53;P =0 .003)
随后,SHAP 值分析将多区域影像风险评分评为模型中最重要的变量。
亚组分析显示,在 AJCC 第八版 I 期患者中,高/低风险组在 DFS、OS 和 LRF 上存在显著差异;
而在 II 期患者中未见显著差异。
在 III 期患者中对 DFS 和 OS 具有显著分层能力。
先前我们曾报道过,机器学习预测模型用XGBoost 模型和SHAP来挑选出在XGBoost模型中重要性排名前五的变量,再用这些变量构建logistic回归模型,从而绘制列线图。
这种思路值得商榷!XGBoost和SHAP特征重要性排名挑选得到的变量,在Logistic回归模型中不一定是最佳的预测因子。
争议:机器学习临床预测模型,能否绘制列线图?
回归本身可以结合SHAP分析,用回归探讨影响因素,结合SHAP分析,用于可视化变量重要性,这是可行的。但是机器学习非线性模型不能先做shap再回归。
回归结合SHAP分析不仅能保留COX回归在生存分析中的统计优势,还能通过SHAP增强模型的可解释性,提供更直观的变量重要性分析和个体化预测解释。
参考文献:
Song B, Leroy A, Yang K, et al. Deep Learning Model of Primary Tumor and Metastatic Cervical Lymph Nodes From CT for Outcome Predictions in Oropharyngeal Cancer. JAMA Netw Open. 2025;8(5):e258094. doi:10.1001/jamanetworkopen.2025.8094
来源:郑老师讲统计