从682个变量筛选到50个，这篇高分机器学习预测模型如何构建的？

摘要：2025年5月7日，JAMA子刊《JAMA Network Open》（医学一区top，IF=10.5）发表了一项机器学习预测模型文章，题为：“Predicting Agitation Events in the Emergency Department Th

2025年5月7日，JAMA子刊《JAMA Network Open》（医学一区top，IF=10.5）发表了一项机器学习预测模型文章，题为：“Predicting Agitation Events in the Emergency Department Through Artificial Intelligence”。

研究者旨在利用急诊科常规可得的临床变量，包括患者特征和临床数据，开发一种新的激动预测模型，以识别有激动风险的患者。激动事件可定义为过度的精神运动活动，导致具有攻击性和暴力行为，是与精神健康相关的急诊就诊中常见的特征。

本文机器学习预测模型特征筛选比较有意思，从682个变量中筛选出50个变量来构建预测模型，一起来看看！

自变量是如何筛选的？

研究者基于大规模、多样化的过往急诊就诊数据，开发、训练并验证一种专门用于预测激动事件的人工智能模型。

为了优化模型性能，研究者采用多种互补技术进行深入的特征选择流程，包括：

递归特征消除（RFE）

L1 正则化逻辑回归（LASSO-logistic回归）

随机森林特征重要性

梯度提升决策树（GBDT，使用 Extreme Gradient Boosting [XGBoost] 实现）的特征重要性评估

此外，还使用 Shapley 加性解释（SHAP）值来进一步洞察各个特征的贡献。

这几种特征筛选技术是如何互补的？

首先，RFE 在带 L1 正则化的逻辑回归模型上应用，通过系统性地移除次要变量，直至确定最优子集；

随后，独立地使用 L1 正则化逻辑回归，根据回归系数选取特征。

随机森林和 GBDT 模型则分别通过它们的特征重要性评分提供额外的排序信息。GBDT 模型的 SHAP 值为模型预测提供了可解释性，使我们能够评估每个特征对预测结果的影响。

研究最初共考虑了 682 个变量，经过多步骤筛选后，利用 RFE 确定了前 20、50、100 和 200 个预测性特征，并分别在随机森林、GBDT 和 LASSO 模型中基于 AUROC 与 PR-AUC 进行了比较评估。

通过汇总各方法中最具预测力的特征达成共识，从而精炼出最终的特征集用于模型开发。最终，GBDT 模型在仅使用 50 个特征时表现最佳，被选为最终模型。

机器学习模型构建及超参数调优

最终分析队列包含 3,048,780 次就诊，其中 2,436,967 次来自 8 家急诊科的推导数据集，将其随机分为训练队列（75%）和测试队列（25%），通过逻辑回归估计激动事件的发生概率。

另外，我们使用来自耶鲁新港健康系统一所未包含于推导数据集的非学术性城市医院的 630 000 次急诊就诊数据进行了外部验证。

为应对可能出现的过拟合、多重共线性和稀疏数据偏差问题，我们构建了三种监督式机器学习模型：随机森林、最小绝对收缩和选择算子（LASSO）以及 GBDT。

对每个模型均采用 5 折交叉验证以确定最佳超参数。

在随机森林模型中，调优参数包括决策树数量、最大深度和最小分裂样本数；

在 GBDT 模型中，优化学习率、最大深度和正则化项；

在 LASSO 回归中，则调整 L1 正则化强度和容差。

所有模型的超参数调优均使用基于树结构 Parzen 估计器的算法，最终根据交叉验证中受试者工作特征曲线下面积（AUROC）和精确率–召回率曲线下面积（PR-AUC）的最小化误差选取最优参数。

研究者主要以 AUROC 指标来挑选最佳超参数，因为其能提供对整体区分能力的广泛衡量，并确保不同模型间的统一比较。尽管在数据不平衡的情境下 PR-AUC 也很重要，但为了保持一致性，我们优先采用 AUROC。

我们意识到仅优化 AUROC 或 PR-AUC 可能导致过拟合，因此采取了多重防护措施：

超参数调优完全在交叉验证框架内进行，减少对单一折的依赖；

同时，对逻辑回归使用 LASSO 正则化，对随机森林设置 min_samples_split、min_samples_leaf 和 max_depth 等约束，以控制模型复杂度。

模型验证与性能评估

超参数调优完成后，我们分别在验证集和外部测试集上评估各模型的泛化能力。

模型性能还通过 AUC、精确率、召回率和 F1 分数等指标进行评估。

在内部验证数据集中，AUROC 为 0.96（95% CI，0.95–0.96），PR-AUC 为 0.41（95% CI，0.41–0.43）。

在外部验证数据集中，模型的 AUROC 为 0.94（95% CI，0.93–0.94），PR-AUC 为 0.41（95% CI，0.40–0.42），表明其具有良好的区分能力（图A、B）。

模型校准则通过校准曲线（将预测概率与实际结果进行比较）来检验，模型校准评估显示，在整个预测概率范围内均表现稳健（图C、D）。

决策曲线分析显示，在一系列风险阈值下，本模型与“全体筛查”及“无筛查”两种策略相比，均具有更高的净收益，表明其在临床上对高风险患者的早期识别和干预具有潜在价值（图 E、F）。

我们通过将预测概率分箱，绘制各箱内的平均预测值与阳性结果比例来可视化校准表现。

最终模型中最重要的预测因子包括既往急诊就诊次数、首次生命体征、病史、急诊严重度指数（Emergency Severity Index）、主诉以及既往镇静和/或约束事件次数。各因子的详细系数与相对重要性见下图。

这变量实在是太多了，682个，也只有机器学习可以做到了，这么多变量确实需要严谨的组合拳，来筛选最佳预测因子组合。

参考文献：

Wong AH, Sapre AV, Wang K, et al. Predicting Agitation Events in the Emergency Department Through Artificial Intelligence. JAMA Netw Open. 2025;8(5):e258927. doi:10.1001/jamanetworkopen.2025.8927

最后，在文末给郑老师我们团队打个统计服务广告吧，大家不要见怪哈！