摘要:今天,百川智能正式发布开源医疗增强大模型 Baichuan-M2。就在五天前,OpenAI 刚刚开源了两款主打低部署成本和顶尖医疗能力的大模型gpt-oss-120b 和gpt-oss-20b。
刚刚,中国医疗AI实现关键突破!百川智能开源Baichuan-M2,以32B小尺寸登顶全球医疗评测榜首,超越OpenAI。
今天,百川智能正式发布开源医疗增强大模型 Baichuan-M2。就在五天前,OpenAI 刚刚开源了两款主打低部署成本和顶尖医疗能力的大模型gpt-oss-120b 和gpt-oss-20b。
【图片来源于网络,侵删】
值得注意的是,Baichuan-M2 的尺寸只有32B,却能以更小尺寸实现全面反超,在全球开源医疗大模型中登顶第一。
根据权威医疗评测集 HealthBench的最新结果,Baichuan-M2 获得 60.1 的高分,超越 OpenAI 最新开源模型 gpt-oss120b 的 57.6 分。同时超越了 Qwen3-235B、Deepseek R1、Kimi K2 等当前全球所有主流开源大模型。而且,Baichuan-M2 的参数规模远小于竞争对手。
针对医疗机构对患者隐私保护和私有化部署的迫切需求,百川对 Baichuan-M2 进行了极致轻量化处理。经过优化后的模型可以在单张 RTX 4090 显卡上完成部署,同时保持接近无损的量化精度。
为满足急诊、门诊等对实时响应要求极高的医疗场景,百川基于 Eagle-3 架构优化推出了 MTP 特别版本。该版本在单用户场景下实现了 74.9% 的 token 速度跃升,显著缩短了医患交互等待时间。
在医疗能力显著提升的同时,Baichuan-M2 的通用能力也有所提升。实际测试显示,其在数学推理、指令遵循、文本写作等通用核心能力上均表现出不降反升的趋势。
这一突破源于百川首创的技术路线——将医疗数据用于强化学习。作为中国首个采用此方案的团队,百川验证了高质量医疗数据对模型通用能力的增强价值。
在 OpenAI 设立的 HealthBench Hard 复杂医疗问题子集评测中,Baichuan-M2 获得 34.7 的高分。该测试包含 1000 个特别困难的临床问题,用于评估模型解决复杂医学问题的全景能力。今年 5 月该评测发布时,全球顶尖模型得分均未超过 32 分。
这意味着 Baichuan-M2 成为继 GPT-5 之后,全球第二款超过 32 分的模型,超越了包括 Claude 3.5、Gemini 2 在内的所有顶尖闭源模型。
Baichuan-M2 的技术突破源于四项关键创新:大型验证系统、端到端强化学习、AI 患者模拟器,以及多类型医疗数据的深度推理机制。
今年1月,百川在业内首发 AI 患者模拟器,通过真实病例构建了上万名不同年龄、性别、症状的虚拟患者。在 Baichuan-M2 的开发中,这一系统被全面升级,能够模拟包含错误描述和模糊表达的真实患者叙述,极大还原了临床问诊的复杂性。
训练过程中,百川采用多阶段强化学习策略,将复杂的强化学习任务分解为多个层次化的训练阶段。AI 患者与 AI 医生生成数百万轮对话,验证系统实时评估打分,形成动态优化闭环。
医学验证系统作为核心技术支撑,以专业医疗标准对模型输出进行多维度评估。系统从医疗正确性、诊疗方案完备性、患者安全性及沟通友好性等角度严格评判,引导模型思维贴近资深医生。
数据架构上,百川采用医学数据、通用数据、数学推理数据按 2:2:1 的比例搭配。同时引入领域自我约束训练机制,避免模型成为只懂医学知识的“高分低能者”,确保其保持通识和推理综合能力。
百川 Baichuan-M2 的发布标志着医疗 AI 发展的重要转折。通过极致的轻量化设计和成本控制,顶尖医疗 AI 能力不再局限于大型研究机构或资金雄厚的医院。
而且,百川的开源策略使全球医疗机构能够免费获取这一顶尖医疗模型。特别是在 OpenAI 未公开 GPT-5 参数、无法私有化部署的背景下,Baichuan-M2 成为医疗行业低成本应用世界级医疗 AI 的最佳选择。
随着模型在基层医疗机构的普及,AI 辅助诊断有望缓解优质医疗资源分布不均的问题。同时,大模型竞争的焦点正从参数规模转向训练质量和效率。这将促使 AI 技术更快融入真实医疗场景,创造更实际的临床价值。
来源:走进科技生活