摘要:近日,首都医科大学附属北京妇产医院阴赪宏教授团队在国际知名期刊《Journal of Medical Internet Research》(JCR Q1区)连续发表两篇原创性研究论文:《Enhancing the Accuracy of Human Pheno
近日,首都医科大学附属北京妇产医院阴赪宏教授团队在国际知名期刊《Journal of Medical Internet Research》(JCR Q1区)连续发表两篇原创性研究论文:《Enhancing the Accuracy of Human Phenotype Ontology Identification: Comparative Evaluation of Multimodal Large Language Models》、《Performance of ChatGPT-4o and Four Open-Source Large Language Models in Generating Diagnoses Based on China's Rare Disease Catalog: Comparative Study》。这两项研究聚焦医学人工智能、大语言模型前沿领域,为提升罕见病诊疗水平和人类表型识别提供了创新性解决方案。
研究不仅为医学大语言模型在临床实践中的应用提供了重要的理论依据和技术支撑,更为医院本地化部署大语言模型构建了科学、可行的实施框架。研究成果的连续发表,标志着北京妇产医院在大语言模型的临床应用与研究领域迈出了坚实的第一步。
首都医科大学附属北京妇产医院阴赪宏教授、产前诊断中心闫有圣副教授为上述论文共同通讯作者,我院2024级博士研究生钟威为第一作者。
随着大语言模型“ChatGPT”和“DeepSeek”的出现和爆火,新一代人工智能正以前所未有的力量重塑人类的生产力格局。然而,在医学领域,尤其是罕见病诊疗方面,大语言模型的应用潜力尚未得到充分挖掘。究其原因,尽管大语言模型拥有海量的医学知识储备,但如何将其有效转化为临床实践中罕见病诊疗的助力,仍是一个亟待探索的课题。基于此,阴赪宏教授团队率先行动,运用大语言模型从多个维度对罕见病的临床关键问题展开深入研究,致力于开拓这一领域的全新应用前景。
1.多模态大语言模型助力人类表型术语识别,提升罕见病诊断准确性
罕见病的诊断离不开对人类表型术语(HPO)的精准识别,但临床医生尤其是年轻医生,常因患者表型描述的复杂性而陷入困境,传统的手动检索 HPO 数据库方法不仅耗时,还容易出错。为攻克这一难题,阴赪宏教授团队开展了创新性研究。
研究邀请了来自 10 个不同专业的 20 名年轻医生参与,他们需对 27 张与罕见病相关的患者图像进行评估。研究分为两组:一组依靠HPO数据库手动检索,另一组则使用由 ChatGPT - 4o 对图像预先识别的 HPO 术语作为提示,并结合数据库搜索。此外,研究还对 ChatGPT - 4o 和两种开源的多模态大语言模型(Llama3.2:11b 和 Llama3.2:90b)的输出准确性进行了评估,并分别记录了每种模型的幻觉现象。
结果显示,多模态大语言模型辅助的临床医生准确率显著高于手动检索组,分别为 67.4%(182/270)和 20.4%(55/270),P
因此,将多模态大语言模型整合到临床工作流程中,能显著提高年轻医生识别 HPO 术语的准确性,为罕见病的诊断和医学研究中表型描述的标准化带来了巨大潜力。然而,其显著的幻觉率也凸显了在临床实践中广泛应用之前,需要进一步完善和严格验证的必要性。
2.大语言模型在中国罕见病目录中的诊断表现及优化策略研究
罕见病的诊断因其复杂性及医生知识局限性而充满挑战,大语言模型为改善这一状况带来了新的希望。本研究旨在评估 ChatGPT - 4o 和四种开源 LLMs(qwen2.5:7b、Llama3.1:8b、qwen2.5:72b、Llama3.1:70b)对罕见病的诊断准确性,分析不同语言(中英文)对诊断性能的影响,并探索检索增强生成(RAG)和链式推理(CoT)在开源模型中的应用效果。
研究根据中国第一批病目录从中国罕见病注册系统数据库提取了 121 种罕见病的临床表现作为诊断病例。首先使用ChatGPT - 4o 生成主要诊断和五种鉴别诊断,而四种 LLMs 则在中英文两种语言下接受评估。诊断率最低的模型接受了 检索增强生成技术(RAG) 和 思维链推理(CoT )的重新评估(研究共进行了1331次诊断比较试验)。通过 McNemar 检验比较诊断准确性,并对 11 名临床医生进行了罕见病熟悉程度的调查。
研究表明,ChatGPT - 4o 在罕见病诊断方面表现卓越,诊断准确率最高,达到 90.1%。不同模型在不同语言下的表现各异。虽然小参数模型Llama3.1:8b 在资源受限的英文诊断流程中具有一定的应用潜力,但在中文应用场景中需要更大规模的模型才能达到相当的诊断准确率。随着像 DeepSeek - R1 这样的开源模型的快速推出,可能会在未经充分验证的情况下被广泛采用,这进一步凸显了在医疗场景科学合理部署开源模型的紧迫性。研究证明,成功将开源模型有效应用于临床需要考虑三个核心要素:模型参数、用户语言和预训练数据。RAG 的整合显著提升了开源模型在罕见病诊断中的准确性,但对于低参数推理模型的应用仍需保持谨慎。
作者简介
通讯作者 阴赪宏
教授,主任医师,研究员,博士生导师,首都医科大学附属北京妇产医院 北京妇幼保健院党委副书记、院长,享受国务院政府特殊津贴专家。长期致力于妇产科、内科临床与基础研究工作,解决了一系列临床关键技术问题。主持“十一五”科技支撑重点项目、“十三五”国家重点研发计划项目、“十四五”国家重点研发计划项 目、国家自然科学基金等 36 项课题;发表论文近 600 篇,其中 SCI 论文 240 篇;主编、副主编医学专著 35 部。多次担任国际、国内学术会议主席、执行主席。授权专利 11 项。获北京市科学技术进步奖二等奖、中华医学科技进步奖二等奖等 10 余次。入选北京学者、国家卫生计生突出贡献中青年专家、北京先进工作者、北京市战略科技人才等荣誉称号。
通讯作者闫有圣
遗传学博士,主任医师, 副教授, 硕士研究生导师。从事临床遗传病基因诊断、遗传咨询和产前诊断工作20年。兼任中国医院协会妇产医院分会常委/产前诊断学组副组长、中国中西医结合学会检验专委会出生缺陷委员会副主任委员、中国优生科学协会出生缺陷预防专业委员会、中国优生优育协会胎儿医学专业委员会、中国医疗保健国际交流促进会妇产健康医学委员会、中国医药教育协会健康管理专业委员会委员等。主持省部级2项,作为课题骨干参与“十三五重大研发计划”2项,“十四五重点研发计划”2项,参与完成省部级科研项目6项。以第一或者通讯作者在Molecular psychiatry、Analytical chemistry、Human mutation等高水平期刊发表SCI论文10余篇,出版专著2部。
第一作者 钟威
首都医科大学2024级学术型博士研究生。主要研究领域为人工智能在出生缺陷中的应用、生殖医学等。在《Human Reproduction》等权威期刊上以第一作者身份发表SCI论文6篇,参与发表SCI论文 4篇、《中华生殖与避孕杂志》1篇、核心期刊3篇。参编著作《线粒体遗传病诊疗》。作为学生骨干参与“十三五”、“十四五”国家重点研发计划、国家自然科学基金等课题的申报与实施工作。
编辑:宣传中心
北京妇产医院
来源:北京妇产医院一点号1