摘要:带 UI 工具:国内为大家熟知的有 Dify、Coze 以及百度千帆;国外有 LangChain 基础上搭建 UI 的 LangFlow(更多是流式结构,后升级成图式编排智能体的 LangGraph),还有 N8N、Flowise AI 等。框架工具:国内有
1. Agent 编排工具现状及编排系统的迭代演进
当前主流 Agent 编排工具包括:
带 UI 工具:国内为大家熟知的有 Dify、Coze 以及百度千帆;国外有 LangChain 基础上搭建 UI 的 LangFlow(更多是流式结构,后升级成图式编排智能体的 LangGraph),还有 N8N、Flowise AI 等。框架工具:国内有 Meta GPT、面壁智能的 chatdev;微软 AutoGen、Megnetic-one(去年底刚推出,是对 AutoGen 的简化,因为 AutoGen 上手成本较高),还有 SWARM。原生 prompt 格式输出不稳定,于是限定特定格式(如节省 token 输出)并单独调用工具。之后升级为工具调用 Function Call,但 Function Call 也不稳定且逻辑简单。为解决对话逻辑编排问题,工作流诞生,本质是 Plugin 加强版,但与用户交互缺乏,执行过程依赖 prompt 且成本偏大。进而发展出单智能体,后来又演变成多智能体。
以 Coze 为例,左侧可以编排系统提示、设计人设、规划对话逻辑,还能配置常用工作流脚本,用户甚至可以上传自己的知识库、设置定时任务等,这些功能组合起来能够构建一个解决实际问题的机器人。
2. Coze 平台机器人模拟评估与多智能体实践
Coze 平台创建机器人后,如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段:
初期人工测试:由运营员工手动开启机器人,提出 Bot 相关与不相关问题,基于主观体验预判效果,该方式人力成本高且评判标准不统一,结果差异大。流程自动化:将评估工作拆解为提问、评估等环节,纳入固定流程,通过标准化流程得出评估结果。用户自主评估:考虑到真实用户提问的不确定性,设置特定人设(包含学术背景、年龄等信息),随机选择用户和人设,由 Agent 决定作答反馈,最终通过评分卡从情绪反馈、回答表现等维度进行评估。3. 多智能体在 Bot 自动标注中的应用与优势
4. 智能体开发:选型、模型、提示词与工具的优化策略
5. 智能体设计前沿:OpenAI 指南与 Anthropic 观点的深度解析
OpenAI 最近发布了智能体设计指南,指出智能体适用于三种场景:复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景,则不建议使用智能体。在编排方式上,存在单智能体和多智能体,多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法,在选择策略方面,先用最强大的模型进行探索,再使用相对较小的模型。同时,要有人工干预机制,设计阈值和风险触发点,并且在关键环节设置一定的防御措施。
Anthropic 4 月 5 号发布 Agent 设计指南(作者与上述相关内容为同一人),探讨了如何构建能力更强的智能体。核心观点:不要将智能体视为万能,不能所有问题都依赖智能体;要保持简单,这与机器学习早期的奥卡姆剃刀原理一致;定义任务时,自身要具备一定 Agent 思维。
Agent 适合解决逻辑复杂且高价值的业务,但成本高、延迟高,如果无法接受,则不建议使用。
最初整理的 Agent 发展阶段体现了对智能体应用场景和特点的综合考量 。
6. 智能体落地场景技术决策的思考
智能体落地时,如何进行技术决策:
技术可行性验证:拿到需求后,先用可用的最强模型逐个验证,检查单点能力是否存在瓶颈。若有瓶颈,修改需求或接入更强的模型。成本和速度考量:以 DeepSeek 为例,其百万 Token 成本一到两块钱,每次调用成本约为 0.0001 人民币。若要求延迟控制在 0.5 秒以内,不适合用大模型,此时可选择 BERT 系列模型。很多人存在误区,认为只要是大模型就一定好,而忽略了上一代 BERT 系列或 GPT 系列等模型,BERT 系列模型响应时间较快,在特定任务上表现良好,实际应用中,应根据场景选择。模型选择依据:Encoder 结构适合做理解任务,Decoder 结构适合做生成任务。分类任务涉及理解,因此不能完全否定BERT系列模型。错误容忍度:如果智能体误判给业务带来较大损失,建议引入人工干预或使用更可控的模型,此时不适合使用智能体。任务复杂程度:根据调用频次衡量任务简单与否,两次以内调用是简单任务,超过两次是复杂任务。对于复杂任务,若调用过程中不需要工具、自定义知识库、联网等,直接使用大模型多次调用即可;若需要,则使用增强 LLM。任务逻辑与角色:对于复杂任务,若需要控制主体逻辑,使用工作流;若不需要,再判断是单角色还是多个角色协同。单角色任务使用单智能体即可,多角色协同任务则使用多智能体。7. 智能体的困境与挑战
实际上,智能体并非万能,原因:大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能(AGI),但实际上,距离 AGI 还很遥远,市面上某些工具的宣传存在夸张成分。
智能体存在的问题:
记忆召回问题:常用的检索增强生成(RAG)本质上仍是检索思路,只能找到相关信息,而非因果关系。因此,智能体也会陷入只关注相关信息的问题,而要解决这个问题,需要寻找因果关系,如引入图神经网络方法或因果推理等方案。错误累积问题:当系统越来越复杂,尤其是串行架构时,误差会逐级放大。所以必须保证前面环节的质量稳定性,比如 Plugin 质量问题会直接影响智能体执行质量,这也是 OpenAI 开始自建 Plugin 体系的原因。探索效率问题:智能体(Agent)设计得越复杂,效率越低。如果让其自行决策,会出现各种冗余步骤,甚至把简单问题复杂化,同时 Token 花销也较大。因此,AutoGPT 会引入人工干预环节。任务终止和结果验证问题:任务终止以及结果验证方面,智能体表现不佳,尤其是对于评估标准模糊的开放问题,智能体可能一直运行,迟迟无法给出结果。一般可从数据及模型的训练,以及引入强化学习等方向进行改进。伯克利论文分析了多智能体失败的原因,以 MetaGPT、chatdev 等为例进行验证,发现失败率较高,达到 66% - 84%。具体原因:
流程规划和任务划分不当会导致智能体失败。智能体间(Agent-Agent)协作,讨论无意义内容,导致效率低下,关键信息被忽略。一些系统缺乏任务验证,即便有验证,也往往不起作用。例如 Manus 很火,官方展示了让智能体写一个小米 SU7 的 PPT,虽然整个流程自动化程度很高,但仔细查看内容,会发现 PPT 质量一般,距离真正可用还有一定差距。来源:同行者一点号1