OpenAI发布开源框架HealthBench:医疗大模型评估瞄准现实情况,不止医学考试

B站影视 内地电影 2025-05-16 11:31 2

摘要:该公司在周一的博客文章中表示,这个名为HealthBench的大型数据集超越了传统的考试式提问,它基于医学专家认为最重要的内容,测试人工智能模型在真实医疗场景中的表现。

OpenAI近日发布了一款开源基准测试工具,旨在衡量大型语言模型在医疗健康领域的性能和安全性。

该公司在周一的博客文章中表示,这个名为HealthBench的大型数据集超越了传统的考试式提问,它基于医学专家认为最重要的内容,测试人工智能模型在真实医疗场景中的表现。

该公司在博文中写道:“通用人工智能(AGI)的决定性影响之一是改善人类健康。如果开发和部署得当,大型语言模型有潜力扩大健康信息的获取途径,支持临床医生提供高质量的医疗服务,并帮助人们维护自身及其社区的健康。”

公司高管在博文中表示:“评估对于理解模型在医疗环境中的表现至关重要。学术界和业界虽已付出巨大努力,但许多现有评估未能反映真实场景,缺乏基于医学专家意见的严格验证,或者未能给最先进的模型留下改进空间。”

该公司表示,该评估框架是与来自60个国家的262名执业医师合作构建的。

HealthBench内置了5000个真实的医疗对话,并根据医生制定的评分标准对模型的回应进行评分,评估其安全性、适当性和准确性。

该公司表示,HealthBench中的对话模拟了AI模型与个人用户或临床医生之间的互动,这些对话通过合成生成和人工对抗测试产生。OpenAI称,这些对话“旨在真实地模拟大型语言模型在现实世界中的使用情况:它们是多轮次的、多语种的,涵盖了各种普通用户和医疗服务提供者的角色,跨越了多个医学专业和背景,并根据难度进行了筛选。”

HealthBench评估了48562项独特的评分标准,涵盖多个健康情境和行为维度,如准确性、指令遵循和沟通能力。

模型的回应由一个基于模型的评分器进行评估,以判断是否满足每个评分标准。基于满足的标准所获总分,与可能获得的最高分数进行比较,得到模型回应的总体得分。

HealthBench的对话分为七个主题,例如紧急情况、处理不确定性或全球健康。每个主题都有其专属的评分标准。

OpenAI 健康人工智能团队负责人Karan Singhal在LinkedIn的帖子中表示,HealthBench的开发面向两大受众:一是AI研究界,旨在“形成共同标准并激励开发有益于人类的模型”;二是医疗机构,旨在“提供高质量证据,以更好地理解当前和未来的用例及局限性。”

OpenAI表示,HealthBench的开发旨在遵循几项核心原则来评估医疗领域的AI系统。首先,该公司称,评分应反映现实世界的影响。OpenAI在博文中表示:“这应超越考题范围,捕捉复杂的现实生活场景和工作流程,以反映个人和临床医生与模型互动的方式。”

同时,评估还应反映医疗专业人士的标准和优先事项,为改进AI系统提供坚实的基础。该公司指出:“应显示出巨大的改进空间,从而激励模型开发者持续提升性能。”

斯坦福AI 研究与科学评估中心执行主任Ethan Goh表示,HealthBench是推动医疗 AI 性能评估迈向正确方向的一步。Goh在LinkedIn的帖子中提到,许多先前的基准(如MedQA, MultiMedQA, MedMCQA, USMLE)依赖于选择题,这些题目通常来自医生资格考试。这些基准现已饱和,对于衡量AI模型改进的作用不大(即AI模型的得分已接近100%)。HealthBench通过一个用于任务级评估的基准弥补了这一空白,涵盖了患者和临床医生的使用场景。”

Goh表示,许多行业参与者早已将其模型用于各种医疗保健应用,但坦率地说,在对AI回答进行稳健评估方面做得并不出色,因为他们急于部署一个可用的原型,而这在面向消费者或医疗服务提供者的使用场景中可能具有极高的风险。

OpenAI评估了自家模型以及来自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。总体而言,OpenAI 的 o3 模型表现最佳。但值得注意的是,也有行业人士警告称,一家公司自行制定基准,并显示其模型在该基准上表现最佳,这一做法存在风险。如果不公开其模型及数据集以供公众审查,那无异于同时扮演法官、陪审团和行刑者的角色。在像医疗这样讨论生死的敏感领域,这种程度的不透明是不可接受的,这种不透明性可能会掩盖模型的弱点。

OpenAI在医疗健康领域动作频频,该公司正与赛诺菲和Formation Bio合作,构建一款由AI驱动的工具,旨在通过加速临床试验招募来改进药物研发。Iodine Software也正与OpenAI合作,将包括GPT-4在内的生成式AI和大型语言模型整合到其广泛的临床管理和收入周期管理解决方案中。此外,Color Health也与OpenAI合作开发了生成式AI工具,包括一款AI驱动的癌症辅助诊疗应用,双方正合作测试计算机生成的癌症患者个性化护理计划。休斯顿德克萨斯大学健康科学中心 (UTHealth Houston) 也与OpenAI合作,构建和部署用于医学培训和患者床旁的算法。

来源:大健康派

相关推荐