超越 OpenAI 医疗能力全球登顶，百川发布开源大模型 Baichuan-M2

摘要：OpenAI 于 8 月 6 日开源两款大模型，主打部署成本超低和医疗能力最强；5 天后，Baichuan-M2 以更小尺寸模型实现医疗能力反超，在所有开源模型中位列世界第一。

IT之家 8 月 11 日消息，百川智能今日发布开源医疗增强大模型 Baichuan-M2。

OpenAI 于 8 月 6 日开源两款大模型，主打部署成本超低和医疗能力最强；5 天后，Baichuan-M2 以更小尺寸模型实现医疗能力反超，在所有开源模型中位列世界第一。

Baichuan-M2 在 HealthBench 上得到 60.1 分，以 32B 的较小尺寸反超 OpenAI 最新开源模型 gpt-oss120b（得分 57.6），并超越 Qwen3-235B、Deepseek R1、Kimi K2 等当前世界所有开源大模型。

针对医疗领域用户隐私考虑下的模型私有化部署需求，百川智能对 Baichuan-M2 进行了极致轻量化，量化后的模型精度号称接近无损，可以在 RTX 4090 上单卡部署，相比 DeepSeek-R1 H20 双节点部署的方式，成本降低到 1/57。针对国产主流芯片的开发和适配，让多数医疗机构利用现有硬件条件即可实现快速部署。

此外，面向急诊、门诊等对于交互速度要求更高的场景，基于 Eagle-3 架构优化的 Baichuan-M2 MTP 版本在单用户场景下实现了 74.9% 的 token 速度跃升。

医疗能力极大增强后，模型通用能力是否会下降？百川也验证了高质量医疗数据对于模型通用能力的增长具有较高价值，M2 模型在数学、指令遵循、写作等通用核心性能上不降反升，因此这个模型也可应用于医疗以外的其他领域。

此外，Baichuan-M2 号称在医疗复杂问题方面的能力比肩 GPT-5，超越一众顶尖闭源大模型。GPT-5 发布时，OpenAI 特别强调，其是 HealthBench Hard 评测全球唯一超过 32 分的模型。Baichuan-M2 则以 34.7 分成为全球第二款超过 32 分的模型。