摘要:所以,现在对医学研究缺失数据填补的问题,很多人都有了一定的思考,有缺失,还是要填补,无论是临床试验、调查研究,无论是前瞻性还是回顾性。
在我们的临床研究中,很难得到高质量的数据。
以医院数据为例,收集的数据不够完整,存在缺失,这些缺失数据如同鸡肋,食之无味,弃之可惜。
所以,现在对医学研究缺失数据填补的问题,很多人都有了一定的思考,有缺失,还是要填补,无论是临床试验、调查研究,无论是前瞻性还是回顾性。
今天,老郑看到一篇用Python软件开发预测模型的文章,发表在医学顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)上,题为:“Performance of an AI prediction tool for new-onset atrial fibrillation after coronary arte
数据缺失大致分为三种类型:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。
关于这部分的详细介绍,大家可以看看我们之前发过的推文:
缺失数据4 | 缺失数据填补R包实战
我们都知道,不同的缺失机制需要用不同的插补方法。如何确定缺失机制?如何选择插补方法?老郑认为这篇文章做的挺好!
我们先简单看看原文是怎么做的:
研究团队开发并验证了一种新型的基于人工智能(AI)的床旁预测工具,以准确预测冠状动脉旁路移植术(CABG)后的心房颤动(NOAF)发生风险。
来自一家医院的 2486 名患者构成了模型开发队列,并按 7:3 比例分为训练集和测试集,而来自另一家医院的 508 名患者构成了外部验证队列。数据分析使用 Python(v3.12.5)进行。
数据缺失情况见下图:
研究团队对原始数据集的缺失数据模式进行了分析,采用 Little'MCAR(完全随机缺失)检验,结果显示 χ² 值为 5888.25(p 数据并非完全随机缺失(MCAR)。
因此,简单地删除缺失率超过 10% 的数据可能会引入偏倚。
为解决这一问题,研究者分别构建了包含和不包含缺失率超过 10% 患者的模型,并使用 DeLong 检验进行敏感性分析,以比较模型性能。
结果证明模型具有稳健性。
因此,在本研究中,为确保数据尽可能贴近真实世界情况,研究者排除了缺失率超过10%的患者。
ry bypass grafting”,作者是暨南大学护理学院副教授杨巧红团队。
这篇文章对于缺失数据的处理十分严谨,今天我们一起学习一下!
随后,研究团队采用了多种缺失值填补技术,包括均值插补(Mean Imputation)、K 近邻(K-Nearest Neighbor, KNN)插补和链式方程多重插补(Multiple Imputation by Chained Equations, MICE)。基于每种插补方法生成的数据集分别构建模型。
为评估不同插补方法对模型的影响,我们使用DeLong检验比较各模型的AUC值,以进行敏感性分析,统计显著性水平设定为 p
最后,研究者采用链式方程(MICE)多重插补来解决缺失数据,生成10个插补数据集用于后续分析。
缺失值的存在不可避免,不同研究团队对此的处理略有不同。但是,如何正确处理缺失值至今没有标准。
这篇文章研究者对于缺失数据处理的思路是非常清晰的,研究设计严谨,统计学方法规范,非常值得我们借鉴!
来源:统计医研库