摘要:巧合的是,就在同一天,在2025百度世界大会上,百度正式发布了文心新一代模型——文心5.0。这款原生全模态大模型,从训练源头就融合了语言、图像、视频、音频数据,彻底告别了行业主流的「后期拼接」模式;更关键的是,其Preview版本已同步上线文心App,用户可直
今天凌晨,OpenAI正式发布了GPT-5.1,主打更智能、更具对话性。
巧合的是,就在同一天,在2025百度世界大会上,百度正式发布了文心新一代模型——文心5.0。这款原生全模态大模型,从训练源头就融合了语言、图像、视频、音频数据,彻底告别了行业主流的「后期拼接」模式;更关键的是,其Preview版本已同步上线文心App,用户可直接体验;开发者和企业用户也可通过百度千帆大模型平台,调用文心大模型5.0 Preview API服务。没有「空窗期」。
同时,文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。在40余项权威基准的综合评测中,其语言与多模态理解能力与Gemini-2.5-Pro、GPT-5-High等模型持平,图像与视频生成能力与垂直领域专精模型相当,达到全球领先水平,验证了原生全模态大模型的能力和潜力。
百度创始人李彦宏会上表示,大模型技术在快速迭代,其智能水平不断突破极限,模型思考时间变长,原生全模态统一,将自我学习和迭代,具备创新能力。“智能本身是最大的应用,而技术迭代速度是唯一护城河。百度会持续投入、研发更前沿的模型,推高智能天花板。”
事实上,在此之前,文心5.0的预览版本ERNIE-5.0-Preview-1022就已经悄悄登上了LMArena榜单。
11月8日凌晨,LMArena的最新排名显示,该模型登上文本排行榜全球并列第二、中国第一,在创意写作、复杂长问题理解等场景中,超过多款国内外主流模型。
在AI圈,LMArena榜单是当前全球最具公信力的大模型评测平台之一,其排名由真实用户盲测投票产生,而非单纯依赖算法打分。
这其中的含金量自然不言而喻。尤其是在全球顶级竞技场中与GPT-4、Claude等国际巨头同台较量的情况下,文心5.0的这次突破,不仅展现了百度在大模型技术上的深厚积累,更标志着中国AI在全模态理解与生成能力上实现了关键跃升。
无独有偶,就在前天,百度开源了全新多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking,24小时内就登上Huggingface多模态模型趋势榜全球第一。公开评测数据显示,ERNIE-4.5-VL-28B-A3B-Thinking在多项多模态理解与推理任务中表现优异,仅需3B激活参数,性能表现接近业界领先的GPT-5-High与Gemini-2.5-Pro。
这不禁让人好奇:原生全模态到底有何不同?文心5.0的技术突破,会重构大模型的竞争格局吗?对开发者和行业来说,又意味着哪些新机遇?
提到多模态大模型,很多人的第一印象是「能看图、能读文、能生成视频」——但多数模型的实现方式,其实是「后期融合」:先分别训练文本、图像等单模态模型,再通过接口拼接实现跨模态交互。这种方式就像「后天学外语」,不同模态间总有「隔阂」,理解和生成的连贯性难以保证。
那么,文心5.0的「原生全模态」究竟是什么?
在我们来理解,「原生全模态」是从模型架构设计之初,就将语言、视觉、听觉等多模态数据统一编码、联合训练,在同一语义空间中实现真正的深度融合。这种“先天习得” 的能力,让文心5.0无需额外适配接口,就能自然理解不同模态间的关联,就像一个「精通多语种的 native speaker」。
其核心突破,集中在三个维度:
文心5.0自训练伊始,就将语言、图像、视频、音频等多模态数据「混在一起学」,而非「分开学完再拼接」。百度通过「自回归统一架构」,对不同模态的训练目标进行离散化建模,让文本的语义、图像的像素、视频的时序、音频的波形在统一架构下充分融合,最终实现「文、图、视、音联合输入+输出」的闭环。
更关键的是,它攻克了行业普遍面临的「理解与生成一体化」难题。以往多模态模型常出现「理解不准却生成流畅」的矛盾,比如把「悲伤的视频」生成「欢快的文案」;而文心5.0通过精细建模多模语义特征,让理解和生成相互增强——能精准识别视频里人物的微表情和弹幕情绪,再生成贴合情感的文本,甚至反过来,根据文本描述生成带细节的视频片段。
大模型的能力常与参数规模挂钩,但参数越大,训练和推理成本也越高,这是行业的「两难困境」。文心5.0给出的答案却出其不意。
文心5.0总参数规模超过2万亿,是目前已公开参数的模型之最;但它采用「超稀疏激活」设计,激活参数比低于3%——简单来说,模型虽大,但每次推理只调用部分「专家模块」,既保持了大模型的强能力,又大幅降低了计算成本。
事实上,这背后离不开飞桨深度学习框架的支撑:百度研发了多模态编码器分离异步训练架构、动态自适应显存卸载技术,结合FP8混合精度训练,让文心5.0的预训练性能较基线提速230%;推理端则通过「多级分离框架的全模态统一高性能推理」技术,进一步降低开发者的使用成本。
对开发者而言,大模型的价值最终要落地到具体任务中。文心5.0在「智能体与工具调用」上做了针对性增强——通过大规模真实/模拟工具环境合成长程任务轨迹数据,用「思维链+行动链」的端到端强化学习训练模型。
比如在复杂的工业巡检场景中,模型能自主规划「调用摄像头识别设备故障→调用传感器获取数据→生成维修建议」的全流程,而非只能单次响应简单指令。这种能力升级,让文心5.0从「问答工具」向「协作伙伴」迈进,更适配开发者的复杂场景需求。
当然,光有技术理论不够,实际用户体验才是关键。于是,CSDN编辑也亲自实测了下,直观感受了下文心5.0 Preview的「实力」。
作为预览版就拿下全球第二、中国第一的大模型,文心5.0Preview的文本能力在实测中的确不俗。
在创意写作场景,输入「写一篇科幻短篇,主题是AI与人类共同修复地球生态」,几分钟内就生成了包含人物、情节、细节的2000字故事,不仅逻辑连贯,还加入了「AI通过植物语言翻译器与绿植沟通」的创意设定,展现了出色的想象力与叙事能力。
在复杂问题场景,我们提出了量子计算和大模型的如何融合的疑问,文心5.0Preview并未停留在概念解释层面,而是给出了具体的技术路线图,并拆解出「技术原理→结合场景→实际案例」的三层结构,解释深入浅出,完全没有晦涩感。
「原生全模态」作为文心5.0的核心突破,实测效果如何呢?
我们首先输入提示词:1990年的家庭老照片(含黑白画质、自行车、喇叭裤元素)+ 2025年家庭聚会短视频(含4K画质、三代同堂、方言对话)。
它不仅准确识别出两段素材的时代特征与情感线索,还自动关联时空变迁脉络,生成了一篇融合视觉、听觉与语义的跨模态叙事散文,将黑白影像中的沉默记忆与现代视频里的欢声笑语交织成一部“三十年家史”,甚至补充了「方言传承见证家族凝聚力」的洞察,内容完整性和连贯性都不错。
更值得一提的是,在跨模态冲突输⼊的时候,能分别出来应该重点参考哪个。
再比如输入一张图片,让它分析图片人物的心理状态,文心5.0Preview能够对能够对⽂字、图⽚、⾳频、视频中情绪做很好的理解和解读,不仅能捕捉到画⾯信息,还能理解视频背后的情感和内涵。
在指令遵循层面也更人性化,摒弃「AI风格」。例如我们插入一段指令:
我是个影视博主,帮我分析这段影视剧⽚段的演技,联系上下⽂分析这段情感的爆发表现如何,最后给我写⼀段100字的⼩红书分享⽂案。
文心5.0Preview能写出像⼈类撰写的⼩红书攻略⽂案,⽂本⽣成更加细腻、注重细节,文风可活泼、可严谨。对输⼊意图的理解更强,基本能知道模糊指令背后的意图。
在智能体工具调用方面,我们问了它一些专业领域的问题,测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。
可以看到,文心5.0Preview能够基于用户需求自动拆解任务,调用搜索、计算、代码等工具链协同工作。精准定位到2025年最新报道,并提取其中关于大模型进展的关键信息,并根据模型领域做了细致分析。
事实上,文心大模型的能力已在真实场景中实现应用。百度自研的多模协同的数字人技术包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人「神、形、音、容、话」的高度统一。最终呈现出一个具备高表现力,内容吸引人,人-物-场可自由交互的超拟真数字人。
目前已经助力打造超过10万数字人主播,直播转化率提升31%,开播成本下降80%。
从实测来看,文心5.0其技术能力突破并非单点能力的提升,而是全维度的系统性跃升,这些突破既验证了原生全模态架构的技术含金量,也展现了百度将技术转化为产业价值的落地能力。
原生全模态路线,关键一步
文心5.0的发布,不只是一款模型的升级,更折射出百度在大模型赛道的「长期主义」。
回顾文心的发展历程:2021年ERNIE 3.0在SuperGLUE超越GPT-3;2025年4月发布文心4.5 Turbo,强化多模态能力;6月文心4.5系列开源,覆盖从0.3B到47B参数的模型;9月文心X1.1在多个基准评测中持平GPT-5和Gemini 2.5 Pro;11月11日,百度正式对外推出文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking,新模型全面开源;11月12日,百度开源的全新多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking......
可以看到,百度始终以技术深水区持续投入,推动大模型从能用到好用的跨越。每一次迭代都不仅仅是参数与指标的攀升,更是对场景理解、系统协同与产业需求的深度融合。而文心5.0原生全模态的推出,更是体现了其技术定力。当行业多数厂商还在优化「拼接式多模态」时,百度直接从架构源头解决问题,这种「难而正确的事」,最终形成了差异化优势—— 无需额外适配接口,就能实现多模态无缝协同,大幅降低开发者的创新成本。
而这种积累带来的优势,则体现在「技术+生态」的闭环上。投入AI十余年,百度通过「芯片 - 框架 - 模型 - 应用」的垂直整合能力,为生态提供了强大的底层支撑。每一层之间由诸多反馈进行耦合。通过不断获得反馈,AI就可以实现端到端优化,大幅提升输入输出效率。
可见,文心5.0的进化是技术积累与场景驱动共振的结果。从技术演进视角看,原生全模态的选择本质上是对大模型发展规律的深刻把握。
而原生全模态之所以能快速从技术概念转化为产业价值,根源在于百度「芯片 - 框架 - 模型 - 应用」全栈布局的系统性支撑。更关键的是,原生全模态架构完美契合了百度应用为王的战略重心,形成技术迭代与生态繁荣的正向循环。
站在2025年这个大模型走向规模化落地的关键节点上来看,百度展示的不仅是技术的领先性,更是产业化的成熟路径,“Baidu is back” 的含金量还在上升。
毕竟,能直接调用的技术突破,远比停留在PPT上的「领先」更有价值。
来源:CSDN一点号
