速递｜文心5.0横空出世，百度押注原生全模态，LMArena最新榜单冲上全球第二、中国第一

摘要：在今天的百度世界大会上，百度终于把压了许久的“底牌”掀开——文心大模型5.0。这是百度第一次真正意义上对外亮明自己的“原生全模态”路线，一个参数量高达2.4 万亿的庞然大物，从训练第一天起，就是按照“人类理解世界的方式”来建模的。

在今天的百度世界大会上，百度终于把压了许久的“底牌”掀开——文心大模型 5.0。这是百度第一次真正意义上对外亮明自己的“原生全模态”路线，一个参数量高达2.4 万亿的庞然大物，从训练第一天起，就是按照“人类理解世界的方式”来建模的。

简单说，它不是给文本模型“外挂”图像、音频能力，而是把所有模态揉进同一套自回归架构里——语言、图像、视频、音频从出生就共用一套大脑，完全统一地理解、推理、生成。这是百度这两年一直反复强调的“原生全模态”，也是这次 5.0 的核心底层哲学。

更关键的是，在 40 多项全球主流 benchmark 上，文心 5.0 的综合表现已经与 Gemini 2.5 Pro、GPT-5 High并肩，在创意写作、复杂任务理解、多模态推理等维度都站在第一梯队；图像、视频生成能力，更是逼近垂类专精模型的水准。这是百度第一次在国际基准上把“全模态原生路线的潜力”真正打了出来。

李彦宏在现场说了一句非常关键的话：“智能本身是最大的应用，而技术迭代速度是唯一护城河。”

意思很明确——未来比拼的不再是“能不能做应用”，而是谁能最快把模型往前推、让智能的“天花板”不断被抬高。

这句话背后，文心 5.0 的技术路线给出了百度如今的答案：

统一自回归机制下的原生全模态建模

超稀疏 Mix-of-Experts 架构，总参超过 2.4T，但激活比例低于3%，兼顾能力与推理成本

基于飞桨框架的大规模工具链训练

“思维链 + 行动链”的多轮强化学习，让模型在智能体规划、工具调用上更像“能自己干活的助手”

一句话概括就是：不是大，而是更“像人”。

百度 CTO 王海峰给了更具体的描述：文心 5.0 是百度第一代真正意义上的“原生全模态”模型。训练初期就把图像、视频、音频与语言混合，让它们在统一架构里共同优化，从而获得更强的一体化理解能力。

意味着模型不仅能更准确地看视频、读图片，还能自己规划步骤、拆解任务、调用工具去执行复杂流程。百度在内部构建了大量长程任务环境，通过强化学习生成“任务轨迹”，再用这些数据教会模型“如何成为一个智能体”。

也因此，在 LMArena 最新榜单上，ERNIE-5.0-Preview-1022已经冲上全球第二、中国第一，在创意写作、多模态理解、复杂问题处理等方面都表现亮眼。