大模型遇“天花板”?科学家证实理论上限,多智能体才是破局关键

B站影视 港台电影 2025-10-19 08:56 1

摘要:你有没有过这样的经历?用大模型写长篇报告,开头还紧扣主题,写着写着就跑偏了;让它解复杂的逻辑题,简单步骤没问题,多绕几步就彻底乱了。以前总以为是模型不够“强”,参数加得不够多,但最新研究狠狠颠覆了这个认知。

你有没有过这样的经历?用大模型写长篇报告,开头还紧扣主题,写着写着就跑偏了;让它解复杂的逻辑题,简单步骤没问题,多绕几步就彻底乱了。以前总以为是模型不够“强”,参数加得不够多,但最新研究狠狠颠覆了这个认知。

来自阿联酋穆罕默德·本·扎耶德人工智能大学和保加利亚INSAIT研究所的团队发现,单一大模型不管怎么优化,处理复杂任务时都存在一道跨不过去的“理论天花板”。这不是技术不够好,而是模型本身的物理结构决定的,就像再快的单车也追不上汽车,原理上就有局限。

这个发现太关键了。它解释了为什么很多AI项目投入大量资源扩大模型,效果却越来越差;更指明了方向——多智能体协作才是突破这层天花板的核心钥匙。

研究的起点,是团队开发多智能体写作系统CogWriter时发现的怪事。这些现象在AI研发中其实很常见,只是没人从根上找原因。

第一个现象是“参数门槛”。用14B参数的模型时,CogWriter能顺畅完成规划、反思、修改等复杂步骤,写出的内容逻辑清晰。可换成同系列8B参数的模型,输出立刻变得混乱,规划颠三倒四,修改也全是无效操作。这说明模型能力不是慢慢提升的,而是到了某个参数阈值才突然“开窍”。

第二个现象是“记忆衰退”。让模型写长文本时,开头还能严格遵循指令,写个几千字后就像“失忆”了,不仅忘了最初的要求,甚至前后内容自相矛盾。参数大的模型能撑得久一点,但最终还是会“断片”。

最让人意外的是第三个现象:多智能体的“神奇效果”。当CogWriter用Qwen2.5-14B做骨干模型,拆分成多个智能体协作时,复杂指令任务的准确率从0.44一下子涨到了0.61,居然超过了GPT-4o的0.47。同样的模型,只是换了协作方式,效果就天差地别。

这些现象串起来,一个问题浮出水面:多智能体凭什么能突破单一模型的瓶颈?以前大家只当是“任务分解得好”,但这背后肯定有更深层的原因。

团队把目光投向了信息论——这个诞生快百年的理论,居然成了破解AI难题的关键。

他们发现,大模型的单次推理过程,其实就像一根传输信息的管道。这根管道的容量是固定的,由模型的输出token数量、表示维度、注意力矩阵规模这些物理指标决定。就像家里的水管,口径就那么大,再大的水流也只能按上限通过。

这里要用到一个叫“法诺不等式”的工具,它能把抽象的“信息容量”和看得见的“准确率”挂钩。通过计算,团队得出了一个核心结论:模型的最高准确率,只由两个东西决定——任务需要处理的信息量,和模型管道的容量上限。

这就解释了“准确率悬崖”现象。当任务的信息需求没超过容量时,模型表现稳定;可一旦越过那条线,性能不是慢慢下降,而是突然“掉悬崖”,准确率断崖式下跌。这不是模型“笨”,是管道“堵了”,再多数据和优化都没用,因为物理上限就在那。

为了验证这个理论,团队选了“多跳问答”做测试。这类任务要求模型在满是干扰信息的长文本里,通过多步推理找到答案,比如“某个人的导师的母校在哪所城市”,得先找导师是谁,再查导师的母校,最后确定城市,每一步都环环相扣。

分析发现,这类任务有两个让模型“崩溃”的机制。

第一个是“信息超载”。每多一跳推理,模型需要记住的信息不是按1、2、3增加,而是呈爆炸式增长。它不仅要记当前步骤的结果,还要顾全整个推理链,还要从一堆无关信息里挑有用的。到了三跳、四跳,就算每一步单独看很简单,累积的信息量也早超过了模型的“管道容量”。

第二个是“错误放大”。推理链就像多米诺骨牌,第一步要是有10%的不确定性,第二步基于这个结果推理,错误率可能就升到30%,第三步直接全错。这种误差不是简单叠加,是指数级恶化。

这两个机制凑在一起,就是个死循环:容量不够导致小错,小错在多步推理中被放大,最终任务彻底失败。更关键的是,这是单次推理模式的“结构性缺陷”,跟技术优化没关系。

既然单模型的瓶颈绕不开,团队就从“协作”入手,开发了一个叫InfoQA的多轮调用系统。它的思路特别简单,却精准戳中了问题的要害。

针对“信息超载”,InfoQA把多跳问题拆成一个个单跳小问题。比如把“找导师母校城市”拆成“确定人物→找其导师→查导师母校→确定城市”四步,每一步的信息量都控制在模型能处理的范围内,绝不超过容量上限。

针对“错误放大”,它加了个“信息剪枝”的步骤。每完成一步推理,就自动删掉无关的上下文,只把核心结论传给下一步。这样一来,上一步的小误差不会被带到下一步,更不会被放大。

实验结果让人惊喜。在专门构建的测试集里,当推理跳数从2增加到5,上下文噪音越来越大时,所有单模型方法都在某个临界点突然崩溃,准确率曲线和理论预测完全吻合。而InfoQA的准确率一直很稳定,就算最复杂的任务也能保持合格水平。

更有意思的是另一项研究发现,多智能体的协作效果有“缩放规律”。性能随智能体数量增加呈S型增长,大概100个智能体时就饱和了,不用无限制加数量。而且这种协作带来的能力提升,比单纯扩大模型参数来得更早、更省资源 。

这个理论给AI行业提了个醒:很多时候,我们优化的方向从一开始就错了。

以前模型表现不好,大家的第一反应是“加数据”“扩参数”“改架构”。但如果问题根源是任务信息量超过了模型容量,这些操作只是在“撞天花板”,投入产出比只会越来越低。就像给单车装更高级的链条,也跑不过汽车,因为动力系统的本质限制没解决。

正确的思路应该是“优化任务流”。与其花几百万训练更大的模型,不如重新设计工作流程,把复杂任务拆成小步骤。这种方法不用额外训练成本,效果却可能发生质变。比如写行业报告,与其让一个大模型从头写到尾,不如让一个智能体做资料搜集,一个做结构规划,一个写核心内容,一个负责校对,效率和质量都会提升。

还有个更经济的方向是“异构多智能体”。不同任务需要的信息量不一样,没必要全用大模型。简单的资料筛选、格式整理,用8B参数的小模型就行;到了逻辑分析、结论提炼这些关键步骤,再调用14B以上的大模型。这样分工不仅效果好,推理成本能降一大截。

但必须清醒的是,多智能体不是没有缺点,它的风险比单模型更复杂。

澳大利亚Gradient Institute的报告指出,多个安全的智能体放一起,未必是安全的系统。常见的风险有三种:一是单个智能体出问题,整个流程就断了;二是智能体之间沟通不畅,信息传着传着就错了;三是大家有共同的“知识盲区”,会重复犯同一个错误。这些风险在单模型测试里根本发现不了,一旦发生在关键领域,后果可能很严重 。

比如医疗AI系统,如果一个智能体误判了检查数据,另一个智能体基于这个错误做诊断,最后给出错误的治疗建议,麻烦就大了。而且多智能体的“黑箱”更复杂,出了问题很难定位是哪个环节出了错 。

所以用多智能体系统,一定要做好“渐进式测试”。先在模拟环境里跑通,再小范围试点,加上实时监控,千万不能直接用在关键场景里。

研究团队提出的“活字印刷”理念,可能是平衡效果和成本的好办法。

这个思路是在一个骨干模型里,训练出多种“原子能力”,比如“资料筛选”“逻辑推理”“文本生成”“校对修改”等,每种能力都能独立调用。遇到任务时,就像拼活字一样,把需要的能力模块组合起来,形成临时的协作系统。

这种设计的好处很明显:既保持了单模型部署的简洁性,又有了多智能体的灵活性。尤其适合手机、边缘设备这些资源有限的场景,不用同时跑多个模型,只调用需要的能力模块就行,省内存又省电量。

从更宏观的角度看,AI的未来可能不是“超级大模型”,而是“协作生态”。就像人类社会,没人是全才,但通过分工协作能完成登月、建大桥这样的复杂任务。AI也是一样,理解每个“智能体”的能力边界,设计出高效的协作规则,或许才是通向通用人工智能的现实路径。

给从业者的3个实用建议

最后说点实在的,这个研究对做AI项目的人太有参考价值了:

1. 先做“容量诊断”。模型表现不好时,别着急优化。先估算一下任务的信息量,再对比模型的处理容量,看看是不是“天花板”问题。如果是,拆任务比扩模型更划算。

2. 尝试“轻量协作”。不用一开始就做复杂的多智能体系统。可以先把任务拆成2-3步,用同一个模型分步骤处理,每步做完清理上下文,效果可能就会提升。

3. 重视“风险监控”。如果用多智能体,一定要加“校验节点”。比如关键步骤让两个不同的智能体分别处理,对比结果,避免单一错误被放大。

大模型的“军备竞赛”可能快到拐点了,但AI的进步不会停。从“单打独斗”到“协同作战”,这种转变或许能让AI真正走进更复杂的现实场景。

你在做AI项目时,遇到过“准确率悬崖”吗?你觉得多智能体最适合解决哪些问题?欢迎在评论区聊聊~

参考文献:

1. 佚名. (2025). SCALING LARGE LANGUAGE MODEL-BASED MULTI-AGENT COLLABORATION. CSDN博客. https://blog.csdn.net/silentwolfyh/article/details/149936305

2. 人工智能学家. (2025). 科学家发现:大模型存在无法逾越的理论上限,多智能体是突破关键. 今日头条. http://m.toutiao.com/group/7562502216154645030/?upstream_biz=doubao

3. Department of Industry Science and Resources. (2025). New report highlights emerging risks in multi-agent AI systems. industry.gov.au. https://www.industry.gov.au/news/new-report-highlights-emerging-risks-multi-agent-ai-systems

4. 新浪科技. (2025). 大模型 “准确率悬崖” 被证实,科学家发现模型单次处理容量上限,多智能体成破局关键. 手机新浪网. https://tech.sina.cn/2025-10-17/detail-infufcyk8620771.d.html

来源:大平哥(王者荣耀)一点号

相关推荐