摘要:OpenAI最近发布的新基准HealthBench,联手全球60个国家的262名执业医生,树立了新的「AGI标志性用例」。在这场AI与医生的正面交锋中,最强AI模型o3几乎达到了人类医生的最佳水平,甚至超越了部分医生的表现。
在人工智能(AI)迅速发展的今天,医疗领域正迎来一场前所未有的变革。
OpenAI最近发布的新基准HealthBench,联手全球60个国家的262名执业医生,树立了新的「AGI标志性用例」。在这场AI与医生的正面交锋中,最强AI模型o3几乎达到了人类医生的最佳水平,甚至超越了部分医生的表现。
这场变革不仅将改变医学的未来,还将拯救数百万人的生命。
就在不久前,OpenAI推出了HealthBench,一个全新的AI健康系统评估标准。这个基准包含了5,000个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
在参战的所有顶尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。
更令人震惊的是,在AI辅助下,医生的诊断准确率提升了近4倍。甚至,o3和GPT-4.1的回答质量超越了医生的水平。这一结果引起了全球医学界的广泛关注。
免疫学家Derya Unutmaz高度评价道,「这个关键的评估基准,将为AI医生铺平道路。我们现在正处于一场改变医学未来,拯救数百万人生命的革命开端」。
HealthBench的设计旨在解决现有评估体系的三大局限:未能还原真实医疗场景、缺乏基于专家意见的严格验证、难以为前沿模型提供提升空间。为此,OpenAI团队秉持以下三大核心信念:
1. 有现实意义(Meaningful):评分应反映真实世界影响。突破传统考试题的局限,精准捕捉患者与临床工作者使用模型时的复杂现实场景和工作流程。
2. 值得信赖(Trustworthy):评分须真实体现医师判断。评估标准必须符合医疗专业人员的核心诉求与行业规范,为AI系统优化提供严谨依据。
3. 未饱和(Unsaturated):基准测试应推动进步。现有模型必须展现显著改进空间,持续激励开发者提升系统性能。
在过去一年中,OpenAI与来自26个医学专业、在60个国家拥有执业经验的262名医师合作,共同构建了HealthBench评估体系。
HealthBench主要面向两个群体:AI研究社区和医疗领域,旨在推动形成统一的评估标准,并提供高质量的证据,帮助更好地理解当前和未来AI在医疗中的应用场景与局限性。
HealthBench的主要目的是为当前及未来的顶尖LLM提供性能可参考依据。在研究中,OpenAI团队评估了多个模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重点考察其在性能、成本和可靠性方面的表现。
性能:
根据现实世界健康场景的不同子集,即「主题」,以及体现模型行为的不同维度,即「轴」,所有模型进行PK。整体来看,o3表现最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro。
此外,在最近几个月里,OpenAI前沿模型在HealthBench上的表现提高了28%。这一提升对模型的安全性和性能来说,比GPT-4o(2024年8月)和GPT-3.5 Turbo之间的提升更大。
成本:
研究团队还在模型大小和测试时计算scaling轴上,研究了模型的成本与性能。可以看到,4月份OpenAI发布的模型(o3,o4-mini,GPT‑4.1),刷新了性能成本SOTA。
小模型在最近几个月里得到了显著的改进,尽管成本仅为GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表现仍优于后者。
可靠性:
在医疗领域,可靠性至关重要——一次错误回应可能抵消许多正确回答。因此,OpenAI在HealthBench上评估了各模型在k个样本下的最差表现(worst-of-n performance)。
结果发现,o3模型在16个样本时的最差分数超过GPT-4o的两倍,展现出更强的稳健性和下限表现。
为了检验这些大模型能否媲美甚至超越人类医生的专业判断,OpenAI展开了一场人机对决测试。262名专业医生被分为了两组:
- 一组医生可以在不使用AI工具的情况下查阅网络资源,撰写最佳回答。
- 另一组医生则可以参考OpenAI的模型生成回答,自由选择直接修改或完全重写,提供更高质量的回复。
随后,研究团队将这些医生撰写的回答与AI模型的回答进行评分对比,评估它们在准确性、专业性和实用性等方面的表现。结果显示,仅依靠AI生成的回答优于没有参考任何AI医生的回答。更令人振奋的是,当医生参考AI回答并加以优化后,他们的回答质量显著超越了AI模型本身。这表明,人类医生的专业判断在AI辅助下能产生最佳效果。
基线模型与元评估
为了检验基于模型的评分器能否精准评判评分标准,OpenAI邀请医生对HealthBench Consensus中的模型回答予以审阅。
评估结果表明,模型评分器与医生之间的配对一致性程度,和医生之间的配对一致性程度相当。这说明HealthBench使用的模型评分方法在很大程度上能够代替专家评分,具有可信度和专业性。
模拟真实场景,多维度评估
HealthBench结合模型合成生成与人工对抗测试方式,力求贴近真实场景,模拟真实世界中人们使用大模型的情况。对话具有以下特点:
- 多轮交互,更符合自然对话流程
- 多语言支持,覆盖不同语言背景
- 角色多样,既包括普通用户,也包括医生
- 涵盖多个医学专业领域与场景
- 精心挑选,具有一定难度,避免模型轻松「答对」
整个HealthBench数据集中包含48,562条独立评分标准。
HealthBench中的对话被划分为七大主题,例如急诊、应对不确定性、全球健康等。每个主题下都包含多个相关示例,每个示例都配有对应的评分标准(rubric criteria)。
这种结构化的设计让HealthBench能够细致、多角度地评估AI模型在不同医疗场景中的表现,反映在实际应用中的可靠性与实用性。
HealthBench的推出标志着AI在医疗领域的应用迈出了重要一步。通过这一基准,我们不仅能够更好地理解和评估AI模型在医疗中的表现,还能推动AI技术在医疗领域的进一步发展。
随着AI技术的不断进步,我们有理由相信,未来的医疗将更加高效、安全和可靠。让我们拭目以待,迎接这场医学革命的到来!
来源:比七