文心5.0 ：2.4万亿参数、原生全模态架构

摘要：百度世界大会发布文心 5.0，以 2.4 万亿参数 MoE 架构（激活率 < 3%）、原生全模态为核心突破。区别于后期融合，其可原生处理图文音视频，解决信息损耗问题，在 40 余项测试中对标 Gemini-2.5-Pro、GPT-5-High

百度世界大会发布文心 5.0，以 2.4 万亿参数 MoE 架构（激活率

今天是百度世界大会，文心 5.0 发布

对于这个模型，要点归结如下：• 2.4 万亿参数：MoE架构，激活参数低于 3%• 原生全模态：不同的路线选择，我觉得这是最大的发布，会细说• 40 余测试领先：语言与多模态的综合能力，与 Gemini-2.5-Pro、GPT-5-High 等模型持平

语言能力 BenchMark

“原生全模态”

这次发布最大的信息点，是原生全模态这个架构

要理解全模态，得从多模态说起

这个词，大家不陌生，最基础的就是 AI 能看图，后续还有能听声音、能看视频，乃至能画图，这是怎么做的呢？

再之后，来到了「多模态」时代，厂商们也各自推出了「多模态模型」，一种做法是采用“后期融合”（Late Fusion），或者…我愿称之为称之为“拼好模”的策略

简单来说，就是为不同的信息模态（如文本、图像、音频）分别训练独立的编码器（Encoder）。这就像是为不同的语言分别找了专家翻译（差不多就这个意思）。一个图像专家负责把图片“翻译”成机器能理解的数字特征，一个文本专家负责处理文字

这事儿，最典型的就是当年的 GPT4-Vision，图片到代码

举个例子，当模型接到一个图文任务时，它会先把这些专家的“翻译稿”收集起来，再交给一个更高层的模块进行整合，最终输出结果。当然了，在多次“翻译”和“整合”的过程中，信息不可避免地会产生损耗和偏差

到现在：成为全模态（还在进行）

原生全模态，则是想从根上解决问题，让大模型能够融合的处理各种信息

换句话说：只有融合了全模态，才能把 AI 真当个人用

这个方向，从原生多模态开始，Google 的 Gemini 是第一个大规模商业化并强调原生多模态(natively multimodal) 概念的主流大模型，支持多模态的输入，和文字的输出。再之前，OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式

百度也在这个方向进行了探索，理论上还更进一步，就是这个文心 5.0，是按原生全模态来做的，架构上支持全模态的理解和输出（文字、图像、声音和视频）

原生全模态
不同于业界多数的多模态模型采用后期融合的方式，文心 5.0 的技术路线是采用统一的自回归架构进行原生全模态建模，理解与生成一体化。
——王海峰，百度首席技术官

这里面有几个硬骨头要啃：

第一个：理解生成一体化多模态的理解和生成，在技术上是两种不同的任务，需要模型在学习生成一张图片的同时，也在提升它对图片的理解能力，反之亦然第二个：统一架构下的训练效率把不同模态的数据硬塞进一个统一的自回归架构，需要极强的工程能力，也需要非常多的试错（这个免不了）第三个：推理成本优化这事儿我还去专门问了，以百度这个为例，干了很多脏活累活辛苦活，包括不仅限于多模态编码器分离异步训练、动态自适应显存卸载、FP8 混合精度训练等

没办法…搞模型的也是得为了用，控制好计算与推理成本，才能让东西有上线的可能

当然，理想和现实总有差距，大家都在往这个方向尝试，但迄今为止，谁都没完整放出来

期待
全模态输入+全模态输出（能输出各类内容）

目前
全模态输入+多模态输出（输出图片+文字）

顺便说下 MoE

这里额外提一下，国内最早公开大规模落地 MoE 架构的，是“悟道”团队（北京智源研究院）2021年，他们训练了一个 1.75 万亿参数的模型

悟道2.0…这是许多东西，开始的地方

这两年 MoE 也是体量模型的主流，从 Mistral-8x22B （还有人记得这个么）到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2（这俩万亿参数），反正一个比一个大

去年初的 Mistral，恍如隔世…

百度这个文心5.0，参数又翻了一倍，到了2.4 万亿，应该是目前业界已公开参数的模型中，体量最大的

能力表现

这块分为两部分，先说说多模态带来能力提升，再说说官方给到的评分榜单多模态能力

音视频理解先给大家洗洗耳朵，这首歌我听了好多遍

真的，这首《遇害》，我听了好多好多遍，希望你也喜欢

多图/视频比较这里有一个非常独特的 case：图片找不同

在【找不同】的场景下，如果大模型是工程做法，则难以完成，比如：先把图片转化成文字描述，像这样

[第一张图片：一只猫在玩球，背后是xxxx][第二张图片：一只猫在玩球，背后是xxxx]

工程做法中，大模型会把这两个描述塞进上下文里，然后对这两个这两个描述词进行比较。自然的，完成不了【找不同】的这个任务

但你会发现，如果 AI 能过全模态的进行理解，是会把我的文字提问、两张图的信息，都进行处理，并得到正确的结果

细节捕捉&推理我们都知道，华强喜欢吃西瓜

但华强不是孔融，西瓜肯定得拿大的

那么，劈开的瓜中，是左边大，还是右边大？

这里我也校验了一下，确实是左边瓜大

评分榜单

语言的相关榜单，对比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high)，从左往右依次为：

(平均值)

知识：SimpleQA、ChineseSimpleQA指令遵循：IFEval、MultiChallenge学科综合：MMLU-Pro、Hulmanity’s Last Exam逻辑推理：ZebraLogic、BBEH数学：AIME 2025、HMMT 2025代码：LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+智能体：TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench多语言：MMMLU-Lite、Multi-IF

语言相关榜单

音频理解的相关榜单，对比 GPT-4o Audio/Gemini 2.5 Pro，从左往右依次为：

音频理解：MMAU、TUT2017、CochScene文本语音对话：OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question语音识别(数值越低越好)：LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH