32B小模型全球登顶！中国医疗AI反超OpenAI，单卡部署成本降57倍

摘要：今天，百川智能正式发布开源医疗增强大模型 Baichuan-M2。就在五天前，OpenAI 刚刚开源了两款主打低部署成本和顶尖医疗能力的大模型gpt-oss-120b 和gpt-oss-20b。

刚刚，中国医疗AI实现关键突破！百川智能开源Baichuan-M2，以32B小尺寸登顶全球医疗评测榜首，超越OpenAI。

今天，百川智能正式发布开源医疗增强大模型 Baichuan-M2。就在五天前，OpenAI 刚刚开源了两款主打低部署成本和顶尖医疗能力的大模型gpt-oss-120b 和gpt-oss-20b。

【图片来源于网络，侵删】

值得注意的是，Baichuan-M2 的尺寸只有32B，却能以更小尺寸实现全面反超，在全球开源医疗大模型中登顶第一。

根据权威医疗评测集 HealthBench的最新结果，Baichuan-M2 获得 60.1 的高分，超越 OpenAI 最新开源模型 gpt-oss120b 的 57.6 分。同时超越了 Qwen3-235B、Deepseek R1、Kimi K2 等当前全球所有主流开源大模型。而且，Baichuan-M2 的参数规模远小于竞争对手。

针对医疗机构对患者隐私保护和私有化部署的迫切需求，百川对 Baichuan-M2 进行了极致轻量化处理。经过优化后的模型可以在单张 RTX 4090 显卡上完成部署，同时保持接近无损的量化精度。

为满足急诊、门诊等对实时响应要求极高的医疗场景，百川基于 Eagle-3 架构优化推出了 MTP 特别版本。该版本在单用户场景下实现了 74.9% 的 token 速度跃升，显著缩短了医患交互等待时间。

在医疗能力显著提升的同时，Baichuan-M2 的通用能力也有所提升。实际测试显示，其在数学推理、指令遵循、文本写作等通用核心能力上均表现出不降反升的趋势。

这一突破源于百川首创的技术路线——将医疗数据用于强化学习。作为中国首个采用此方案的团队，百川验证了高质量医疗数据对模型通用能力的增强价值。

在 OpenAI 设立的 HealthBench Hard 复杂医疗问题子集评测中，Baichuan-M2 获得 34.7 的高分。该测试包含 1000 个特别困难的临床问题，用于评估模型解决复杂医学问题的全景能力。今年 5 月该评测发布时，全球顶尖模型得分均未超过 32 分。

这意味着 Baichuan-M2 成为继 GPT-5 之后，全球第二款超过 32 分的模型，超越了包括 Claude 3.5、Gemini 2 在内的所有顶尖闭源模型。

Baichuan-M2 的技术突破源于四项关键创新：大型验证系统、端到端强化学习、AI 患者模拟器，以及多类型医疗数据的深度推理机制。

今年1月，百川在业内首发 AI 患者模拟器，通过真实病例构建了上万名不同年龄、性别、症状的虚拟患者。在 Baichuan-M2 的开发中，这一系统被全面升级，能够模拟包含错误描述和模糊表达的真实患者叙述，极大还原了临床问诊的复杂性。

训练过程中，百川采用多阶段强化学习策略，将复杂的强化学习任务分解为多个层次化的训练阶段。AI 患者与 AI 医生生成数百万轮对话，验证系统实时评估打分，形成动态优化闭环。

医学验证系统作为核心技术支撑，以专业医疗标准对模型输出进行多维度评估。系统从医疗正确性、诊疗方案完备性、患者安全性及沟通友好性等角度严格评判，引导模型思维贴近资深医生。

数据架构上，百川采用医学数据、通用数据、数学推理数据按 2：2：1 的比例搭配。同时引入领域自我约束训练机制，避免模型成为只懂医学知识的“高分低能者”，确保其保持通识和推理综合能力。

百川 Baichuan-M2 的发布标志着医疗 AI 发展的重要转折。通过极致的轻量化设计和成本控制，顶尖医疗 AI 能力不再局限于大型研究机构或资金雄厚的医院。

而且，百川的开源策略使全球医疗机构能够免费获取这一顶尖医疗模型。特别是在 OpenAI 未公开 GPT-5 参数、无法私有化部署的背景下，Baichuan-M2 成为医疗行业低成本应用世界级医疗 AI 的最佳选择。

随着模型在基层医疗机构的普及，AI 辅助诊断有望缓解优质医疗资源分布不均的问题。同时，大模型竞争的焦点正从参数规模转向训练质量和效率。这将促使 AI 技术更快融入真实医疗场景，创造更实际的临床价值。

来源：走进科技生活

标签：模型开源医疗 openai 单卡

本文地址：http://news.43b.com.cn/a/746766.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐