摘要:京东健康探索研究院在西班牙马德里举办的欧洲心脏学会年会暨世界心脏病学大会(ESC Congress 2025 together with World Congress of Cardiology)上分享了两项基于千万级别人群的慢性病预测研究:利用电商行为数据进
京东健康探索研究院在西班牙马德里举办的欧洲心脏学会年会暨世界心脏病学大会(ESC Congress 2025 together with World Congress of Cardiology)上分享了两项基于千万级别人群的慢性病预测研究:利用电商行为数据进行常见慢性疾病预测(Leveraging E-commerce User Behavior Data for Common Chronic Diseases Prediction),以及基于人群时序疾病轨迹分析的慢性病风险预测(Predicting Chronic Disease Risk Using Population-Based Temporal Disease Trajectory Analysis)。其中第二项研究为京东健康与北方健康医疗大数据及山东省卫健委联合完成。两项研究为慢性病风险的预测提供了新的视角。来自京东健康探索研究院的费金韬研究员在现场进行分享。
全球超过30%的人经常在电子商务平台上购物。通过分析这些平台上的用户行为数据,有可能预测用户的慢性疾病风险。京东是中国大陆最大的电子商务和互联网医疗平台之一,用户数量超过十亿。本研究使用的所有账户均完全匿名化,所有数据均在高度安全的环境下储存与使用。
研究团队收集了在过去两年内,涵盖13354个商品类目的购买、加购物车和浏览次数,并为每个类目计算了如下类目指数:
类目指数=10×购买次数+5×加购物车次数+浏览次数
此外,年龄、性别、婚姻状况、教育水平和城市线级被纳入人口统计学特征。
本研究涉及的8种慢性疾病包括:超重/肥胖、高血压、糖尿病、脂代谢异常、高尿酸血症/痛风、贫血、慢性肝病和慢性肾病。这些疾病通过用户实名购买相关处方药或线上问诊进行诊断。
对于模型预测阳性与预测阴性者之间的风险比计算方法如下:
风险比=(模型预测阳性人群中的疾病真实患病率)/(模型预测阴性人群中的疾病真实患病率)=PPV/(1-NPV)
•建模方案1:梯度提升树模型
研究团队选择过去两年内总行为次数超过200作为纳入标准,并为每种疾病随机纳入50万名患者和50万名未诊断用户。采用Mann-Whitney U检验比较两组在每个类目指数上的差异,多重比较的p值使用Bonferroni进行校正。使用XGBoost模型建模,构建时仅使用存在显著差异的特征,并在针对每种疾病建模时排除该疾病特异性药物和器械(例如高血压预测时会除外降压药物)。由于问题属于positive-unlabeled learning问题,患者被视为初始阳性样本,未诊断用户被视为初始阴性样本,研究团队采用两步法迭代更新阳性和阴性样本。
外部验证使用了包含196778人的数据集,这部分人群同时具有电商行为数据和线下体检及病史数据,保证了疾病标签的可信性。
•建模方案2:行为学大模型
研究团队对一个7B规模的基础大语言模型进行有监督微调(SFT),以字典格式输出疾病的预测。人口学数据和电商行为数据按照如下格式进行整理,在每个疾病名称后输出的0或1的token概率被提取出来,作为患者患该疾病的概率。
•输入格式示例:
•输出格式示例:
对于XGBoost模型和行为学大模型,预测8种慢性病的内部验证AUC分别平均为0.83与0.74,外部验证AUC分别平均为0.68与0.72。两个模型在8种慢性病的ROC曲线如下图所示。从外部验证集的表现上看,行为学大模型的预测能力略高一筹。
图
XGBoost模型的内部验证集和外部验证集性能
图行为学大模型的内部验证集和外部验证集性能
模型预测阳性者相比模型预测阴性者,真实患病的风险比在8种疾病中平均为2.59(XGBoost模型)和4.07(行为学大模型),8种疾病中的具体风险比见下表。
研究团队还分析了XGBoost模型中每种疾病预测时最重要的前10位特征,见下表。
电商平台上的用户行为模式可能揭示了用户罹患慢性疾病的风险,未来可能用于个人健康风险评估和公共卫生管理。
研究2: 基于人群时序疾病轨迹分析的慢性病风险预测
超过一半的老年人群存在多种共病。通过分析大规模人群中的慢性疾病轨迹模式,可能预测个体未来的疾病风险。
研究团队与山东省卫健委及北方健康医疗大数据合作,收集了2016年至2024年间中国北方地区的3738万名患者数据。通过采用ICD-10三级编码,并按患者去重,共获得了来自2272个ICD-10编码的2.0708亿条诊断记录。下图展示了诊断数量随年龄的变化情况。
研究团队排除了急性疾病、外因疾病、妊娠相关诊断和非疾病诊断,最终保留了777个慢性疾病节点(DN)。从DN1到DN2的边权重被定义为在5年间隔内先诊断DN1后再诊断DN2的个体数量,由此在DN节点间形成了265831条双向边。
研究团队计算了从DN1到DN2进展的相对风险(RR),并使用Benjamini-Hochberg方法对多重卡方检验的p值进行调整以降低假阳性发现率。去除RR≤1、RR不显著或边权重
对于每个初始DN,我们采用100万次蒙特卡洛随机游走模拟个体疾病轨迹。假设患者当前患有多种慢性疾病,我们根据每个DN出边权重之和加权随机选择一个起始DN,并按出边权重随机选择该DN的一条出边作为一个step,将到达的DN加入患者的慢性疾病列表。该过程重复进行,直到慢性疾病数量达到阈值(终生慢性病患病数),该阈值根据我们的数据和既往研究设定为7。
在研究人群中,最常见的10种疾病中有9种属于心血管-肾脏-代谢(CKM)疾病(见下表)。CKM疾病最常见的下游疾病也主要是CKM疾病。对于高血压(15/20)、慢性缺血性心脏病(16/20)、脑梗死(16/20)、2型糖尿病(15/20)、心力衰竭(13/20)、其他脑血管疾病(14/20)、心绞痛(15/20)、短暂性脑缺血发作(14/20)和血脂异常(14/20),20种常见下游疾病中超过一半都属于CKM疾病。CKM疾病常见的非CKM下游疾病包括其他肝脏疾病(9/9)、前列腺增生(6/9)、其他椎间盘疾病(6/9)、肺气肿(6/9)、其他慢性阻塞性肺疾病(5/9)和其他非毒性甲状腺肿(5/9)。
利用基于人群的时序疾病轨迹可能帮助预测未来罹患慢性疾病的风险。CKM疾病常常互为下游疾病。这些预测结果仍需通过终身随访研究加以验证。
费金韬研究员在ESC现场做汇报
医脉通是专业的在线医生平台,“感知世界医学脉搏,助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品,全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。
来源:医脉通心内频道