Agent应用路线图--Agent 应用详解

B站影视 欧美电影 2025-06-09 14:30 2

摘要:带 UI 工具:国内为大家熟知的有 Dify、Coze 以及百度千帆;国外有 LangChain 基础上搭建 UI 的 LangFlow(更多是流式结构,后升级成图式编排智能体的 LangGraph),还有 N8N、Flowise AI 等。框架工具:国内有

1. Agent 编排工具现状及编排系统的迭代演进

当前主流 Agent 编排工具包括:

带 UI 工具:国内为大家熟知的有 Dify、Coze 以及百度千帆;国外有 LangChain 基础上搭建 UI 的 LangFlow(更多是流式结构,后升级成图式编排智能体的 LangGraph),还有 N8N、Flowise AI 等。框架工具:国内有 Meta GPT、面壁智能的 chatdev;微软 AutoGen、Megnetic-one(去年底刚推出,是对 AutoGen 的简化,因为 AutoGen 上手成本较高),还有 SWARM。

原生 prompt 格式输出不稳定,于是限定特定格式(如节省 token 输出)并单独调用工具。之后升级为工具调用 Function Call,但 Function Call 也不稳定且逻辑简单。为解决对话逻辑编排问题,工作流诞生,本质是 Plugin 加强版,但与用户交互缺乏,执行过程依赖 prompt 且成本偏大。进而发展出单智能体,后来又演变成多智能体。

以 Coze 为例,左侧可以编排系统提示、设计人设、规划对话逻辑,还能配置常用工作流脚本,用户甚至可以上传自己的知识库、设置定时任务等,这些功能组合起来能够构建一个解决实际问题的机器人。

2. Coze 平台机器人模拟评估与多智能体实践

Coze 平台创建机器人后,如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段:

初期人工测试:由运营员工手动开启机器人,提出 Bot 相关与不相关问题,基于主观体验预判效果,该方式人力成本高且评判标准不统一,结果差异大。流程自动化:将评估工作拆解为提问、评估等环节,纳入固定流程,通过标准化流程得出评估结果。用户自主评估:考虑到真实用户提问的不确定性,设置特定人设(包含学术背景、年龄等信息),随机选择用户和人设,由 Agent 决定作答反馈,最终通过评分卡从情绪反馈、回答表现等维度进行评估。

3. 多智能体在 Bot 自动标注中的应用与优势

机器人组件与文本处理问题:机器人有很多组件,其中提示语较长,超出上一代 Bert 窗口要求。Transformer 处理文本时,上下文窗口有限制(如 512),超出可截断。机器人组件中除了提示词,还会调用 Plugin、workflow、自定义知识库。单个知识库是长文本文档,上一代 Bert 无法完整处理这些内容。标注的迭代过程:最初采用多人分工协作模式,真实标注大量事例。项目经理将标注需求拆分成几个小需求,让标注人员各自标注,再人工审核,通过即可验收,任务可交叉,这是典型的多人分工协作汇总模式。意图挖掘与标签标注:标注工作包括在已知意图里定义分类任务,并挖掘未知意图,从意图集合里“其他”类别中挖掘新标签。机器人组件会带技能标签,人工标注能力有限,人工标注机器人标签一般只能标两到四个,而每个机器人平均标签大致六到八个,所以人工标注不足。Agent 质检与处理:Agent 质检即审核,遇到幻觉时,直接丢弃可惜,因为有些幻觉是标签的近似表达,应召回矫正。新生成的标签要判断合理性,员工抽检合理后可放回,这样 label 集合是动态更新。最终方案效果:Multi-Agent 方案效果比人工标注好很多,最终替换了人工标注。

4. 智能体开发:选型、模型、提示词与工具的优化策略

Agent 选型:不要直接从提示工程跳到多智能体,应该循序渐进。先通过提示工程测试不同模型能力,再设计工作流。工作流场景需具备可控逻辑,跳转逻辑可由智能体控制;逻辑复杂或规则繁重时采用单智能体,多方协作则用多智能体,逐步提升难度。基座模型:不要都用一种模型,应保持多样性;质检或评估等关键环节优先选用强模型;调用模型时,可对 Temperature、Top k 等参数调优,保证多样性,利于在同一任务中通过投票策略确保稳定性。提示工程:框架选择:主流框架丰富,如新加坡比赛夺冠的 Trace,以及常规的 few-shot,cot 等。语言使用:英文提示效果优于中文,建议优先用英文表述任务。输出规范:输出需规范化;使用客气、专业的语言与大模型交互,符合其训练语料特性;如果提示工程太累,可采用 prompt 自动化方案。工具调用:大模型不适合客观推理任务(如数学计算),即便部分模型(如 DeepSeek R1 和 o3 系列)具备一定能力,仍需升级;执行客观任务时避免直接使用大模型,注意输出控制;调用工具前,需充分测试其名称描述、参数及有效性,否则易导致整体准确率大幅下降(如曾低至 50% 以下)。Agent 设计:提示词过长会影响模型效果,建议通过摘要、RAG 等方式拆分任务;避免单个 Agent 承担过多任务,合理分配给多个智能体;为了提升结果稳定性/准确性,可设计并行(异步或同步多次请求)或串行请求(分阶段处理任务,中间环节添加 try catch 捕获异常,防止运行中断与错误累积)。标注环节:用同一种模型(如 GPT-4)进行标注和质检不可行,会漏掉问题案例;DeepMind 论文显示,同种模型不能进行自我检查,强行矫正会显著降低整体准确度。

5. 智能体设计前沿:OpenAI 指南与 Anthropic 观点的深度解析

OpenAI 最近发布了智能体设计指南,指出智能体适用于三种场景:复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景,则不建议使用智能体。在编排方式上,存在单智能体和多智能体,多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法,在选择策略方面,先用最强大的模型进行探索,再使用相对较小的模型。同时,要有人工干预机制,设计阈值和风险触发点,并且在关键环节设置一定的防御措施。

Anthropic 4 月 5 号发布 Agent 设计指南(作者与上述相关内容为同一人),探讨了如何构建能力更强的智能体。核心观点:不要将智能体视为万能,不能所有问题都依赖智能体;要保持简单,这与机器学习早期的奥卡姆剃刀原理一致;定义任务时,自身要具备一定 Agent 思维。

Agent 适合解决逻辑复杂且高价值的业务,但成本高、延迟高,如果无法接受,则不建议使用。

最初整理的 Agent 发展阶段体现了对智能体应用场景和特点的综合考量 。

6. 智能体落地场景技术决策的思考

智能体落地时,如何进行技术决策:

技术可行性验证:拿到需求后,先用可用的最强模型逐个验证,检查单点能力是否存在瓶颈。若有瓶颈,修改需求或接入更强的模型。成本和速度考量:以 DeepSeek 为例,其百万 Token 成本一到两块钱,每次调用成本约为 0.0001 人民币。若要求延迟控制在 0.5 秒以内,不适合用大模型,此时可选择 BERT 系列模型。很多人存在误区,认为只要是大模型就一定好,而忽略了上一代 BERT 系列或 GPT 系列等模型,BERT 系列模型响应时间较快,在特定任务上表现良好,实际应用中,应根据场景选择。模型选择依据:Encoder 结构适合做理解任务,Decoder 结构适合做生成任务。分类任务涉及理解,因此不能完全否定BERT系列模型。错误容忍度:如果智能体误判给业务带来较大损失,建议引入人工干预或使用更可控的模型,此时不适合使用智能体。任务复杂程度:根据调用频次衡量任务简单与否,两次以内调用是简单任务,超过两次是复杂任务。对于复杂任务,若调用过程中不需要工具、自定义知识库、联网等,直接使用大模型多次调用即可;若需要,则使用增强 LLM。任务逻辑与角色:对于复杂任务,若需要控制主体逻辑,使用工作流;若不需要,再判断是单角色还是多个角色协同。单角色任务使用单智能体即可,多角色协同任务则使用多智能体。

7. 智能体的困境与挑战

实际上,智能体并非万能,原因:大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能(AGI),但实际上,距离 AGI 还很遥远,市面上某些工具的宣传存在夸张成分。

智能体存在的问题:

记忆召回问题:常用的检索增强生成(RAG)本质上仍是检索思路,只能找到相关信息,而非因果关系。因此,智能体也会陷入只关注相关信息的问题,而要解决这个问题,需要寻找因果关系,如引入图神经网络方法或因果推理等方案。错误累积问题:当系统越来越复杂,尤其是串行架构时,误差会逐级放大。所以必须保证前面环节的质量稳定性,比如 Plugin 质量问题会直接影响智能体执行质量,这也是 OpenAI 开始自建 Plugin 体系的原因。探索效率问题:智能体(Agent)设计得越复杂,效率越低。如果让其自行决策,会出现各种冗余步骤,甚至把简单问题复杂化,同时 Token 花销也较大。因此,AutoGPT 会引入人工干预环节。任务终止和结果验证问题:任务终止以及结果验证方面,智能体表现不佳,尤其是对于评估标准模糊的开放问题,智能体可能一直运行,迟迟无法给出结果。一般可从数据及模型的训练,以及引入强化学习等方向进行改进。

伯克利论文分析了多智能体失败的原因,以 MetaGPT、chatdev 等为例进行验证,发现失败率较高,达到 66% - 84%。具体原因:

流程规划和任务划分不当会导致智能体失败。智能体间(Agent-Agent)协作,讨论无意义内容,导致效率低下,关键信息被忽略。一些系统缺乏任务验证,即便有验证,也往往不起作用。例如 Manus 很火,官方展示了让智能体写一个小米 SU7 的 PPT,虽然整个流程自动化程度很高,但仔细查看内容,会发现 PPT 质量一般,距离真正可用还有一定差距。

来源:同行者一点号1

相关推荐