AI能为糖尿病患者做什么?研究:比起医生,AI更能满足患者的情绪价值

B站影视 港台电影 2025-03-18 04:11 1

摘要:AI能取代医生吗?看看模型们是如何看病的。一位有30年1型糖尿病史的44岁女性,突感身体不适,去医院急诊,她接受了糖尿病酮症酸中毒综合治疗方案,包括输入0.9氯化钠溶液。但是,6小时内,她的临床状态并未改善。她接下去最迫切需要进行的检查是什么?

AI能取代医生吗?看看模型们是如何看病的。一位有30年1型糖尿病史的44岁女性,突感身体不适,去医院急诊,她接受了糖尿病酮症酸中毒综合治疗方案,包括输入0.9氯化钠溶液。但是,6小时内,她的临床状态并未改善。她接下去最迫切需要进行的检查是什么?对此,ChatGPT-4.0回答“血浆乳酸测定”,ChatGPT-3.5回答“肺动脉CT血管造影”,Google Bard回答“血浆乳酸测定”,LLaMA回答“肺动脉CT血管造影”。近期,上海体育大学、上海交通大学与清华大学合作,联合来自多个国家和学科的学者,在权威期刊《Science Bulletin》上发表了全球首个针对糖尿病培训的大型语言模型检测与前瞻性验证的研究成果。鉴于糖尿病对全球健康构成了重大挑战,且医疗保健专业人员对糖尿病的理解水平存在差异,糖尿病培训的重要性日益凸显。大型语言模型为糖尿病培训提供了新的可能性,但它们在处理糖尿病相关查询方面的实际表现,特别是在非英语语言环境(例如中文)中,一直不甚明确。研究团队对 ChatGPT-3.5、ChatGPT-4.0 以及通义等10个国内外模型进行了基于中英双语专业考试的评估,并研究了大模型在辅助初级保健医生培训方面的效果。研究结果表明,多数模型成绩优异超过医生,且助力提升培训成绩,展现强大能力,有望重塑糖尿病护理培训格局。根据国际糖尿病联盟的统计数据,全球糖尿病患者数量已突破5亿大关,每年的医疗开支超过万亿美元,这一沉重负担对各国医疗体系构成了巨大压力。基层医疗人员在糖尿病知识掌握方面存在显著差异,这凸显了专业培训的缺失。大型语言模型(LLM)的问世为糖尿病教育培训领域带来了新的希望。由上海交通大学博士生导师盛斌教授上海体育大学毛丽娟教授共同指导、上海体育大学体育工程专业博士生李灏萱参与,联合清华大学的多学科团队,携手杜克大学、约翰霍普金斯大学、墨尔本大学、新加坡眼科中心等国际顶尖学府和研究机构,组建了全球糖尿病培训智能研究团队。该研究团队精心挑选了10个备受瞩目的大型语言模型进行深入研究,这些模型包括:ChatGPT-3.5、ChatGPT-4.0、Google Bard、LlaMA-7B、LlaMA2-7B、百度ERNIE Bot、阿里通义千问、MedGPT、Huatuo GPT以及Chinese LlaMA2-7B。研究团队基于中国国家初级糖尿病护理证书考试(NCE - CPDC)和英国皇家内科医学院会员内分泌及糖尿病英语专科证书考试(MRCP UK),对这些模型在糖尿病相关查询方面的性能进行了全面的评估。此外,研究团队还在NCE - CPDC考试中,对比分析了在有无ChatGPT - 4.0辅助的情况下,真实世界初级保健医生的培训效果,以此来探究大型语言模型作为医疗助手的可靠性。根据本研究的大模型在糖尿病培训应用场景下的检测验证前瞻性研究数据分析,在NCE- CPDC考试中,ChatGPT-4.0、阿里通义千问、百度ERNIE Bot、Google Bard、MedGPT和ChatGPT-3.5均成功通过了测试,而LlaMA2-7B、HuatuoGPT、Chinese LlaMA2-7B和LlaMA- 7B则未能晋级。值得关注的是ChatGPT-4.0在NCE-CPDC(中文)考试中取得了90.98%的高分,显著超越了所有初级保健医生的平均水平。此外,该模型还能帮助大多数初级保健医生提升成绩1%至6.13%。然而,在MRCP UK英文考试中,ChatGPT-4.0的通过率为62.50%,而Google Bard、LlaMA-7B和LlaMA2-7B均未能达到及格标准。作为研究中准确率最高的大语言模型,在安排ChatGPT-4.0真实初级保健医生一同参加的NCE-CPDC考试中,初级保健医生通过NCE - CPDC考试的准确率介于68.57%至81.16%之间,这一成绩明显低于同场考试中ChatGPT-4.0所取得的84.82%。综合分析表明,绝大多数大型语言模型(LLMs)在解答糖尿病相关问题时,均表现出深厚的知识储备和卓越的逻辑推理能力,其中以ChatGPT-4.0、阿里通义千问和百度ERNIE Bot等模型的表现尤为显著。这一现象充分证明了大型语言模型在为医疗专业人员提供基础糖尿病知识和培训方面的巨大潜力,预示着其在医疗培训领域可能引发的深刻变革。该研究工作于2024年结束。今年年初,研究团队还对DeepSeek回答中国国家基层糖尿病防治管理指南认证考试(NCE-CPDC)试题的准确度进行了测试,发现DeepSeek的回答准确度达91.73%,略高于ChatGPT-4.0的准确度(90.98%)。最新结果显示,前的大型语言模型在处理医学信息并提供解答方面虽然表现出色,但是针对诊疗意见的准确性和安全性上仍有瑕疵,且仍无法完全取代医生所具备的批判性思维、创新精神和创造力。研究认为,展望未来,经过特定领域知识微调的大型语言模型有望为初级保健医生(PCPs)和糖尿病患者提供更高质量的糖尿病培训体验。该模型能够迅速整理和分析大量文本、学术论文以及糖尿病相关文献,提取关键信息,并为用户提供清晰、精炼的内容摘要。例如,将大型语言模型与深度学习模型相结合,可为医生提供更具参考价值的临床建议。此外,大型语言模型可模拟虚拟患者或教练的角色,通过生成病例研究和模拟临床情景,帮助初级保健医生提高沟通和决策技能,从而为初级糖尿病护理提供有力支持。对于糖尿病患者而言,大型语言模型能够加强医患之间的沟通,提供个性化信息,协助患者进行疾病的持续管理。研究发现:比起医生,患者更喜欢与AI沟通近日一项研究发现,尽管患者更信任人类医生,但总的来说对AI生成的沟通内容更加满意。这项研究于2025年3月11日发表在《美国医学会杂志·网络开放》(JAMA Network Open)上。研究者们向美国杜克大学健康系统患者咨询委员会中的2511名患者成员发放了问卷,其中1455名做出了回应。在调查问卷中,参与者被要求审阅一个临床话题的案例描述,这些话题包括常规药物补充请求(低严重性话题)、药物副作用问题(中等严重性)以及影像检查中发现潜在癌症(高严重性)。每个案例描述都包括来自AI或人类临床医生的回复,参与者被要求对回复的整体满意度、信息的有用性以及在互动过程中感受到的关怀程度进行评分。研究发现,无论话题的严重性如何,参与者更喜欢AI起草的回复,各项满意度得分均高于人类医生的回复。“这些信息往往更长,包含更多细节,可能比人类起草的信息显得更有同理心。”研究写道。但另一方面,参与者在得知回复消息的是AI时,满意度会略有下降。研究者们在后续调查中发现,参与者最欢迎的知情措辞是这样的:“此消息由T医生在自动化工具的支持下撰写。”在使用AI进行医患沟通的问题上,医院至少面临两种选择。他们可以不在沟通中告知患者AI的使用,因为告知的话会影响满意度。他们也可以选择告知患者,因为这符合知情同意的伦理规范和相关法规。该研究的结果显示,告知患者不仅符合伦理,也并不会对满意度造成太大影响。

《医师报》投稿公共邮箱:yishibao2017@163.com

【注】部分图片来源于网络及微信朋友圈,如有侵权,请联系删除,谢谢!电话:010-58302828-6808

目前1600000+医生已关注加入我们

来源:医师报

相关推荐