当所有模型都“足够聪明”,新坐标在哪?

B站影视 韩国电影 2025-05-23 10:13 2

摘要:“模型迭代这么快,能力越来越强,基于大模型开发的应用会不会很快就过时,没价值了?”这是许多AI开发者内心的焦虑。在今年4月的Create 2025百度AI开发者大会上,李彦宏直接点出了这个行业痛点。

“模型迭代这么快,能力越来越强,基于大模型开发的应用会不会很快就过时,没价值了?”这是许多AI开发者内心的焦虑。在今年4月的Create 2025百度AI开发者大会上,李彦宏直接点出了这个行业痛点。

数据显示,2025年第一季度就有55个大模型发布更新,最多的时候一周内有8个模型问世。中国信通院近期发布了一项有意思的数据:全球最聪明模型的“第一名宝座”保持时间越来越短,基本上十几天到一个月就会易主,竞争已进入白热化阶段。

但在这场看似无序的“军备竞赛”中,真正的技术价值究竟在哪里?从最近百度发布的文心4.5 Turbo和X1 Turbo中,或许我们能找到一些答案。

这两款模型主打“多模态、强推理、低成本”的特性,其中文心4.5 Turbo在多项测试中与GPT-4.1持平、优于GPT-4o,而API调用价格仅为每百万token输入0.8元;文心X1 Turbo作为深度思考模型,整体效果领先DeepSeek R1,价格却降低50%。在大模型能力趋于同质化的当下,差异化的技术路径和深度的工程优化,正在成为决定竞争格局的关键因素。

百度集团副总裁 吴甜

多模态是如何“炼”成的

当前业界普遍认为,AI若要更深入地理解和服务于现实世界,就必须跨越单一感官的局限,拥抱多模态信息。但多模态大模型要成为“全才”,既要读懂文字,也要看懂图像,还要理解视频中的时空信息,这并非简单的能力叠加,背后的技术挑战远比想象复杂。

根据吴甜在百度AI Day上的相关技术解读,文心4.5 Turbo在多模态建模上采用了多模态异构专家建模,简单来说,就是为不同类型的文本、图像、视频数据配置不同的“专家”来处理。这种设计主要用意在于承认了不同模态计算的差异。文本是符号化的,图像是像素化的,视频还包含时间维度——如果用同一套处理逻辑,就像让同一个老师用相同的方法教语文、数学和体育,效果自然大打折扣。

在视觉处理上,文心4.5 Turbo引入了自适应分辨率视觉编码技术。传统做法往往是将所有图片统一调整到固定尺寸,但这样会丢失很多细节信息。新的方法则更加智能,根据图片内容的复杂程度和重要性,动态选择最合适的分辨率进行编码。这就像摄影师会根据拍摄对象选择不同的镜头和参数,而不是一镜到底。

谋定而后动

如果说多模态能力解决的是“看得懂”的问题,那么深度思考能力则要解决“想得深”的难题。

要让大模型真正具备这种能力,尤其是在处理复杂问题、进行多步推理时,仅仅依赖预训练阶段学到的知识往往不够,还需要在“后训练”阶段进行精细的打磨和能力的引导。在这一环节,强化学习(RL)已经成为提升大模型推理能力的重要趋势,各家都在这个方向发力。但具体怎么做,其中有很多门道。百度的做法是构建一套完整的技术闭环。

在技术解读中,吴甜用了一个很形象的比喻——人在解决复杂问题时会有不同的思维模式,有时是边想边做,有时是谋定而后动,有时是先做再反思调整。而现在的深度思考模型要学会的,正是这种灵活的思维方式。

技术上,这种能力的实现依靠自反馈增强技术框架。整个过程形成了一个“训练-生成-反馈-增强”的闭环:模型训练完成后生成结果,系统对结果进行评估,再根据评估反馈进一步优化模型。

传统的评估往往过于简化——数学题对就是对,错就是错。但现实中的大多数问题并非如此黑白分明。而文心模型采用了多元统一奖励机制,从多个维度对模型输出进行评判——不仅要看答案是否正确,还要看推理过程是否合理、表达是否有深度、是否很好地遵循了用户指令,甚至要判断模型是否只是在套用模板而缺乏真正的思考。

这种多维度评估,堪比校准一台精密科学仪器,如射电望远镜。工程师不仅要确保其“指向正确”(对应基础准确性),还需全面优化其灵敏度(任务侧重)、信噪比(质量与幻觉控制)、处理效率(逻辑连贯性)及指令执行精度(工具调用与指令遵循)等多项关键指标。

全栈系统能力,决定长期竞争力

再先进的算法也需要高效的执行平台来支撑。观察当前的AI竞争格局,能够同时在模型算法、应用生态、基础设施三个层面都具备领先优势的厂商屈指可数。在近期结束的I/O大会上,谷歌展现了其整合领先模型、庞大的流量入口及自研基础设施所带来的图景。这种稀缺性的全栈能力,正成为决定长期竞争力的关键因素。

百度作为全球范围内少数能够打通从模型算法、深度学习框架到基础设施层面的AI技术体系的企业之一,文心大模型与飞桨深度学习框架的联合优化,正是这种全栈能力的一种体现。

数据显示,通过一系列底层优化,文心4.5 Turbo的训练吞吐达到了文心4.5的5.4倍,推理吞吐达到了8倍的提升。这种性能跃升并非简单的硬件堆叠,而是来自于算法、框架、硬件三个层面的深度协同优化。

在训练层面,针对多模态数据的特殊性,飞桨开发了多模态统一的掩码注意力加速技术,降低了不同模态混合计算时的开销。用更直白的话说,就是让AI在同时处理文字、图片、视频时减少了“注意力分散”的计算负担,就像人在多任务处理时学会了更高效的注意力分配方式。

在推理层面,多模态流式分块预填充机制减少了首个token的生成时间,还降低了显存峰值,让模型能够处理更大的批次。这项技术的作用类似于餐厅的“预制菜”概念——提前准备好一些通用的半成品,用户点单时可以更快上菜,厨房的压力也小了,还能提高翻台率。

落地为王,AI技术的下沉

技术创新最终要接受市场检验。在信通院的仿生大模型评测体系中,文心4.5 Turbo在基础模型能力上位列国内第一梯队。文心X1 Turbo在推理模型测评中获得了业界首个4+评级——在24个能力项中,16个得到满分,7个得到4分,仅有1个得到3分,综合能力表现突出。

中国大模型与国际先进水平的差距正在快速缩小,信通院的数据显示,从2024年4月到2025年2月,全球第一名和第二名模型的差距已经微乎其微,而在中文场景下,国产模型甚至展现出了明显优势。

但更重要的问题是,这些测试成绩能否转化为真实场景中的应用价值?

来自福建惠安三中的高一学生陈君航提供了一个很好的观察样本。作为文心一言的深度用户,他的使用轨迹几乎完整记录了一个普通用户与AI共同成长的过程。

最初,陈君航像大多数学生一样,主要用AI来辅助学习——润色作文、解答习题、制定学习计划。但随着对工具理解的加深,他开始尝试更复杂的应用开发。去年暑假,他用文心一言的API为担任小学老师的母亲开发了一个“智能文案生成器”,将原本需要三天时间完成的学生评语撰写工作缩短到几个小时。

这个案例的价值不仅在于功能实现,更在于它展现了AI技术的“下沉”能力。一个来自小城市的高中生,通过相对简单的学习就能开发出解决实际问题的工具。

在商业应用层面,数字人直播是较早展现多模态大模型商业化潜力的场景之一。原因在于数字人本身就是多模态技术的集大成者,需要文本理解来生成台词、语音合成来发声、视频生成来呈现形象,还要实现三者之间的精确同步。

传统的数字人往往存在“表情僵硬、动作单一、文案枯燥”的问题,用户很容易产生审美疲劳。新一代的数字人则通过AI大脑实时生成包含台词、表情、语气、动作的完整剧本,并能根据直播间实时情况灵活调整策略,实现了几乎难以分辨真假的拟真体验。

据百度方面介绍,其数字人技术已服务超过10万名直播主播 ,并带来了直播转化效率的改善及开播门槛的降低 。着力于攻克一个行业普遍面临的难题:如何在动辄数小时的直播场景下,持续维持数字人表现的稳定一致与高度拟真。

除了教育和直播场景,多模态大模型也开始在更多行业落地。在交通领域,高速公路的安全监控系统展现了大模型相比上一代AI的本质优势。传统的计算机视觉主要依靠图像识别,能看但不能“理解”,而大模型具备了语义理解能力,能够将视觉信息转化为结构化的知识。

在内容创作领域,百度文库展现了传统应用如何借助大模型能力在AI时代焕发新生机的典型案例。凭借百度在大模型领域的技术积累,百度文库成功从传统的文档平台转型为AI驱动的内容生产力工具,在激烈的市场竞争中杀出重围。其AI功能付费用户已经超过4000万,月活达到9700万。其中,多模态AI笔记功能能够将视频内容自动转换为图文并茂的笔记,并支持时间戳回溯,实现了真正的“多模态联动”。

这些应用案例共同指向一个结论,技术创新的价值最终要通过解决实际问题来体现,而不仅仅是停留在参数和跑分上。

后“百模时代”的价值新坐标

在Create 2025大会上,李彦宏提出了一个的观点:“创新的本质往往就是成本下降”。文心4.5 Turbo的定价策略印证了这一观点。但成本优化的意义不仅在于提升竞争力,更在于推动整个行业的应用爆发。

当API调用成本降低到可以忽略的程度时,开发者才能真正放开手脚进行创新,企业才能大规模部署AI应用。如果说成本优化解决的是“用得起”的问题,那么系统性优势则关乎“用得好”的体验。

在大模型竞争进入白热化阶段后,单一技术指标的领先越来越难以构成持久的竞争优势。百度在这方面展现出的全栈布局颇具参考价值。

从底层的飞桨框架到中层的文心大模型,再到上层的百度文库等应用,形成了一个相对完整的技术栈。这种布局的优势在于各层之间可以进行深度优化,而不必依赖外部厂商的技术方案,避免了因为技术栈割裂导致的性能损失。

更重要的是生态建设的反哺效应。百度披露的数据显示,飞桨文心的开发者数量已超过2185万,服务67万家企业,创建模型110万个。这个庞大的生态不仅为百度提供了丰富的应用场景和反馈数据,也成为技术迭代和优化的重要驱动力。

吴甜提到,大量的反馈对模型优化具有重要价值,反馈有可能是用户和模型交互产生的,也有可能是大模型API调用后在各种应用场景下产生的。这些数据不能直接使用,需要通过“融合线上反馈的数据挖掘”技术进行处理,但它们为模型的持续优化提供了宝贵的素材。

这种生态反哺机制的价值在于形成了一个正向循环,更好的技术吸引更多开发者,更多应用场景产生更多反馈,又推动技术进一步优化。

回到文章开头的问题:在模型快速迭代的时代,什么样的技术投入和应用开发能够具有持久价值?对于开发者而言,答案可能并不在于简单的追逐最新潮的模型,持久价值的根基,更在于选用那些既能提供核心技术深度又具备显著成本效益,且能高效支撑应用落地的AI基础能力。

开发者真正的机会,是基于这样的能力,着力解决真实的用户痛点,无论是个人提效的智能工具,还是驱动产业升级的行业解决方案。当模型本身日益强大且易用,应用创新的舞台也随之空前广阔,真正的壁垒将由应用的独特价值所定义。

来源:新浪财经

相关推荐