摘要:基于大语言模型(LLM)驱动的Agent系统,尤其是多Agent系统,具备处理复杂、多步骤任务以及与不同环境实时互动的能力,在软件工程、药物发现等诸多领域得到了广泛应用。然而,现实却给这一充满潜力的技术泼了一盆冷水。相比于单个 agent 系统甚至更简单的 b
引言
基于大语言模型(LLM)驱动的Agent系统,尤其是多Agent系统,具备处理复杂、多步骤任务以及与不同环境实时互动的能力,在软件工程、药物发现等诸多领域得到了广泛应用。然而,现实却给这一充满潜力的技术泼了一盆冷水。相比于单个 agent 系统甚至更简单的 baseline,多 agent 系统在处理实际问题时更容易出错。其中,“幻觉累加”问题是阻碍多 Agent 系统发展的一只“拦路虎”。
“幻觉累加” 困境
2024年,加拿大航空公司因其AI聊天机器人向乘客提供错误的丧亲票价退款政策,被加拿大民事法庭判决赔偿乘客650.88加元。法庭驳回了加航“聊天机器人是独立法律实体”的辩解,明确企业需对AI工具的输出负责。类似问题在司法领域同样爆发:2023年,纽约联邦法院审理一宗航空诉讼案时,律师提交的6个“先例”被揭露为ChatGPT生成的虚构案例,导致其被处以5000美元罚款。这一事件暴露了生成式AI在专业场景中的“幻觉”风险。这些案例共同指向AI应用的深层隐患——MultiAgent系统在复杂任务中暴露的“幻觉累加”问题。
Agent本质上是多次大模型问答的串并联,假设单次大模型问答的准确率是 90%,当串联10次时,最终Agent回答准确的概率大约只有 1/3。一旦原始数据出错,后续再深入的分析、再精美的图表都将失去意义,这便是“幻觉累加” 的典型表现。错误如同滚雪球一般,在多步骤的处理过程中不断积累,最终导致整个系统的输出结果严重偏离正确答案。
“幻觉累加” 产生的根源
1. 模型自身的不确定性
大语言模型本身就存在一定的局限性,其生成的内容并非总是准确可靠。在面对复杂任务时,模型可能会基于训练数据中的偏差或噪声,生成看似合理但实际错误的信息。当多个 Agent 基于这些可能错误的信息进行协作时,错误就会层层传递,不断累加。例如,在文本生成任务中,模型可能会因为对某些词汇(如bank一词多义)的语义理解不准确,生成与上下文逻辑不符的句子。如果后续的 Agent 将这些错误的句子作为输入进行进一步处理,就会导致错误不断扩大。
2. 信息传递与交互的误差
在多Agent系统中,信息在不同 Agent 之间传递和交互时,也容易出现误差。不同 Agent 可能对信息的理解和解读存在差异,或者在信息传递过程中出现丢失、篡改等情况。以一个简单的协作场景为例,Agent A向Agent B传递任务指令,由于语言表达的模糊性或网络传输的问题,Agent B可能接收到的指令与Agent A原本的意图有所偏差。Agent B基于这个偏差的指令进行操作,又会产生新的错误信息,并传递给下一个 Agent,从而引发“幻觉累加”。
破局之策的探索
1. 技术层面的优化
引入验证智能体:一些研究尝试部署主推理 Agent和多个验证智能体。以某法律咨询平台为例,主Agent生成法律意见后,验证Agent A检查法条时效性,验证 Agent B核对判例库,验证Agent C评估风险等级,最后综合输出最终结论。通过这种方式,将条款引用错误率从1.2% 降至0.08%,有效减少了“幻觉累加”带来的错误。
模型融合与优化:尝试将不同类型的模型进行融合,取长补短。例如,CUA 模型融合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力,能够将任务分解为多步骤计划,并在遇到挑战时进行自我调整和纠正,提高了任务执行的准确性,一定程度上缓解了“幻觉累加”问题。
2. 系统架构与策略调整
改进提示与规范设计:研究团队针对agent规范、对话管理和验证策略进行干预研究。
增强通信与协作协议:设计更完善的通信协议,减少信息传递过程中的误差。例如,AgentScope提供了msghub模块,简化了广播消息的操作,在同一个msghub 中的智能体会自动接收其它参与者发送的消息,减少了信息传递目标不容易控制和需指定每一次信息交换的问题,提高了多Agent协作的效率和准确性。
建立反馈与修正机制:构建系统级知识库,记录历史决策与经验,辅助智能体学习与优化。当智能体在协作过程中发现错误或不确定性时,能够及时反馈并参考历史经验进行修正,避免错误的持续累加。例如,在一些智能交通调度系统中,通过记录不同时段的交通流量数据和调度策略的执行效果,当遇到类似交通状况时,智能体可以借鉴历史经验,优化调度方案,减少因错误决策导致的“幻觉累加”。
结语:
破解“幻觉累加”,迈向可信的多Agent协作未来
克服“幻觉累加”绝非易事,这需要持续的技术创新与严谨的系统工程思维。从模型层的优化到架构层的策略设计,每一步探索都在为提升多Agent协作的可靠性添砖加瓦。我们相信,随着研究的深入和实践的积累,多Agent系统终将突破“幻觉累加”的桎梏,释放其真正的赋能价值,在软件工程、药物发现乃至更广阔的领域,开创人机协同、智能决策的新范式。
如果您对AI时代的咨询转型有任何想法或需要相关服务,欢迎与AMT企源联系,一起探讨如何在这个充满机遇与挑战的时代实现业务突破。AMT企源,您值得信赖的AI转型合作伙伴。
本文作者:AMT企源 AICS团队高碧梓、曹琦、匡馨
来源:AMT咨询