摘要:“森林之神”——Boruta算法,是基于随机森林的一种特征选择方法,可以从众多特征中筛选出最重要的部分。今天分享的这篇一区top(IF 8.5)文章,学者就通过Boruta算法筛选变量,并通过四种机器学习算法构建了预测模型!
引言
“森林之神”——Boruta算法,是基于随机森林的一种特征选择方法,可以从众多特征中筛选出最重要的部分。今天分享的这篇一区top(IF 8.5)文章,学者就通过Boruta算法筛选变量,并通过四种机器学习算法构建了预测模型!
慢性心力衰竭(CHF)是导致心血管相关死亡的主要原因之一,对人类健康构成重大威胁。应激性高血糖比(SHR)作为一种评估患者在急性医疗事件中体内血糖水平变化的指标,与多种重症疾病的不良结局相关。
然而,目前尚不清楚SHR是否与先前患有CHF且入住重症监护病房(ICU)患者的死亡风险相关。
2024年12月7日,中国学者用数据库,在期刊(医学top一区,IF=8.5)发表题为:Predicting 28-day all-cause mortality in patients admitted to intensive care units with pre-existing chronic heart failure using the stress hyperglycemia ratio: a machine learning-driven retrospective cohort analysis”的研究论文,旨在探究SHR水平与先前患有CHF的ICU患者的28天住院死亡率的关联,并通过四种机器学习算法(ML)构建预测模型。
研究结果表明,对于先前患有慢性心力衰竭的ICU患者,SHR可作为预测其28天住院死亡的独立因素。此外,在构建的四种预测模型中,神经网络算法的预测性能最佳。
研究团队基于MIMIC-IV数据库2008年~2019年的数据,经过纳排,最终纳入了913名年龄≥18岁患有CHF且入住ICU的患者,59%为男性。并且在28天的随访中,有488名患者在住院期间死亡。
图1 研究流程
SHR可有效预测患者28天住院死亡率
首先,研究团队通过RCS曲线探究SHR水平与患者28天住院死亡率的关联,结果显示,患者28天死亡风险随着SHR水平的升高而增加。
图2 SHR水平与患者28天住院死亡率关联的RCS
调整了年龄、合并症败血症、肺炎和充血性心力衰竭、生命体征、OASIS评分、实验室检测指标和药物等
同时,Cox比例风险回归模型结果表明,SHR与28天住院死亡率独立相关。并且,亚组分析结果与其一致。
表1 COX比例风险回归和亚组分析
研究团队还通过绘制SHR、入院血糖(ABG)和糖化血红蛋白(HbA1c)的ROC曲线来预测患者28天的住院死亡率。结果表明,SHR(AUC=0.924)的预测能力优于ABG(AUC=0.910)和HbA1c(AUC=0.917 ),其截断值为0.57。
图3 ROC曲线
此外,研究团队根据SHR的截断值(0.57)将所有患者分为两组,并绘制了两组的Kaplan-Meier生存曲线。
结果表明,与SHR
图4 Kaplan-Meier生存曲线
预测模型的构建与评估
√变量筛选
研究团队通过“森林之神”—Boruta算法,筛选出15个重要预测因子。其中,SHR是预测患者28天住院死亡率的关键预测因子之一。
图5 Boruta算法
绿色框表示重要变量,红色框表示不重要的变量,黄色框表示可能重要的变量
√数据处理
研究团队将从MIMIC-IV数据库收集的数据以7:3的比例随机分为训练集(n=640)和验证集(n=273)。
√模型构建和评估
团队通过四种机器学习算法预测患者的28天住院死亡率,包括Coxph 、K-最近邻算法(KNN)、朴素贝叶斯(Bayes)和神经网络算法。
同时,通过ROC曲线、决策曲线(DCA)和校准曲线评估模型的预测性能。结果表明,神经网络算法模型的预测性能最佳。
图6 机器学习模型的ROC曲线
综上所述,研究团队认为,对于先前患有慢性心力衰竭的ICU患者,SHR是预测其28天住院死亡率的独立因素,且其性能优于HbA1c和血糖。此外,在基于机器学习算法构建的预测模型中,神经网络算法预测性能最佳。
亮点小结
其实基于机器学习构建预测模型的套路非常类似,基本上都是数据收集、特征筛选、模型构建以及模型评估。
想要在常规思路上有所亮点,不如尝试本文用“森林之神”—Boruta算法筛选变量的思路,让研究的统计方法更加高级。
如果你想在其他公共数据库尝试,可以看看郑老师的NHANES和GBD一对一课程!数据库挖掘教学+文章复现+选题建议+R代码报错指导,从零到一,足以满足你的发文需求, 让你不再为SCI文章焦头烂额!
来源:郑老师讲统计