Agent应用路线图--Agent 应用详解

摘要：带 UI 工具：国内为大家熟知的有 Dify、Coze 以及百度千帆；国外有 LangChain 基础上搭建 UI 的 LangFlow（更多是流式结构，后升级成图式编排智能体的 LangGraph），还有 N8N、Flowise AI 等。框架工具：国内有

1. Agent 编排工具现状及编排系统的迭代演进

当前主流 Agent 编排工具包括：

带 UI 工具：国内为大家熟知的有 Dify、Coze 以及百度千帆；国外有 LangChain 基础上搭建 UI 的 LangFlow（更多是流式结构，后升级成图式编排智能体的 LangGraph），还有 N8N、Flowise AI 等。框架工具：国内有 Meta GPT、面壁智能的 chatdev；微软 AutoGen、Megnetic-one（去年底刚推出，是对 AutoGen 的简化，因为 AutoGen 上手成本较高），还有 SWARM。

原生 prompt 格式输出不稳定，于是限定特定格式（如节省 token 输出）并单独调用工具。之后升级为工具调用 Function Call，但 Function Call 也不稳定且逻辑简单。为解决对话逻辑编排问题，工作流诞生，本质是 Plugin 加强版，但与用户交互缺乏，执行过程依赖 prompt 且成本偏大。进而发展出单智能体，后来又演变成多智能体。

以 Coze 为例，左侧可以编排系统提示、设计人设、规划对话逻辑，还能配置常用工作流脚本，用户甚至可以上传自己的知识库、设置定时任务等，这些功能组合起来能够构建一个解决实际问题的机器人。

2. Coze 平台机器人模拟评估与多智能体实践

Coze 平台创建机器人后，如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段：

初期人工测试：由运营员工手动开启机器人，提出 Bot 相关与不相关问题，基于主观体验预判效果，该方式人力成本高且评判标准不统一，结果差异大。流程自动化：将评估工作拆解为提问、评估等环节，纳入固定流程，通过标准化流程得出评估结果。用户自主评估：考虑到真实用户提问的不确定性，设置特定人设（包含学术背景、年龄等信息），随机选择用户和人设，由 Agent 决定作答反馈，最终通过评分卡从情绪反馈、回答表现等维度进行评估。

3. 多智能体在 Bot 自动标注中的应用与优势

机器人组件与文本处理问题：机器人有很多组件，其中提示语较长，超出上一代 Bert 窗口要求。Transformer 处理文本时，上下文窗口有限制（如 512），超出可截断。机器人组件中除了提示词，还会调用 Plugin、workflow、自定义知识库。单个知识库是长文本文档，上一代 Bert 无法完整处理这些内容。标注的迭代过程：最初采用多人分工协作模式，真实标注大量事例。项目经理将标注需求拆分成几个小需求，让标注人员各自标注，再人工审核，通过即可验收，任务可交叉，这是典型的多人分工协作汇总模式。意图挖掘与标签标注：标注工作包括在已知意图里定义分类任务，并挖掘未知意图，从意图集合里“其他”类别中挖掘新标签。机器人组件会带技能标签，人工标注能力有限，人工标注机器人标签一般只能标两到四个，而每个机器人平均标签大致六到八个，所以人工标注不足。Agent 质检与处理：Agent 质检即审核，遇到幻觉时，直接丢弃可惜，因为有些幻觉是标签的近似表达，应召回矫正。新生成的标签要判断合理性，员工抽检合理后可放回，这样 label 集合是动态更新。最终方案效果：Multi-Agent 方案效果比人工标注好很多，最终替换了人工标注。

4. 智能体开发：选型、模型、提示词与工具的优化策略

Agent 选型：不要直接从提示工程跳到多智能体，应该循序渐进。先通过提示工程测试不同模型能力，再设计工作流。工作流场景需具备可控逻辑，跳转逻辑可由智能体控制；逻辑复杂或规则繁重时采用单智能体，多方协作则用多智能体，逐步提升难度。基座模型：不要都用一种模型，应保持多样性；质检或评估等关键环节优先选用强模型；调用模型时，可对 Temperature、Top k 等参数调优，保证多样性，利于在同一任务中通过投票策略确保稳定性。提示工程：框架选择：主流框架丰富，如新加坡比赛夺冠的 Trace，以及常规的 few-shot，cot 等。语言使用：英文提示效果优于中文，建议优先用英文表述任务。输出规范：输出需规范化；使用客气、专业的语言与大模型交互，符合其训练语料特性；如果提示工程太累，可采用 prompt 自动化方案。工具调用：大模型不适合客观推理任务（如数学计算），即便部分模型（如 DeepSeek R1 和 o3 系列）具备一定能力，仍需升级；执行客观任务时避免直接使用大模型，注意输出控制；调用工具前，需充分测试其名称描述、参数及有效性，否则易导致整体准确率大幅下降（如曾低至 50% 以下）。Agent 设计：提示词过长会影响模型效果，建议通过摘要、RAG 等方式拆分任务；避免单个 Agent 承担过多任务，合理分配给多个智能体；为了提升结果稳定性/准确性，可设计并行（异步或同步多次请求）或串行请求（分阶段处理任务，中间环节添加 try catch 捕获异常，防止运行中断与错误累积）。标注环节：用同一种模型（如 GPT-4）进行标注和质检不可行，会漏掉问题案例；DeepMind 论文显示，同种模型不能进行自我检查，强行矫正会显著降低整体准确度。

5. 智能体设计前沿：OpenAI 指南与 Anthropic 观点的深度解析

OpenAI 最近发布了智能体设计指南，指出智能体适用于三种场景：复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景，则不建议使用智能体。在编排方式上，存在单智能体和多智能体，多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法，在选择策略方面，先用最强大的模型进行探索，再使用相对较小的模型。同时，要有人工干预机制，设计阈值和风险触发点，并且在关键环节设置一定的防御措施。

Anthropic 4 月 5 号发布 Agent 设计指南（作者与上述相关内容为同一人），探讨了如何构建能力更强的智能体。核心观点：不要将智能体视为万能，不能所有问题都依赖智能体；要保持简单，这与机器学习早期的奥卡姆剃刀原理一致；定义任务时，自身要具备一定 Agent 思维。

Agent 适合解决逻辑复杂且高价值的业务，但成本高、延迟高，如果无法接受，则不建议使用。

最初整理的 Agent 发展阶段体现了对智能体应用场景和特点的综合考量。

6. 智能体落地场景技术决策的思考

智能体落地时，如何进行技术决策：

技术可行性验证：拿到需求后，先用可用的最强模型逐个验证，检查单点能力是否存在瓶颈。若有瓶颈，修改需求或接入更强的模型。成本和速度考量：以 DeepSeek 为例，其百万 Token 成本一到两块钱，每次调用成本约为 0.0001 人民币。若要求延迟控制在 0.5 秒以内，不适合用大模型，此时可选择 BERT 系列模型。很多人存在误区，认为只要是大模型就一定好，而忽略了上一代 BERT 系列或 GPT 系列等模型，BERT 系列模型响应时间较快，在特定任务上表现良好，实际应用中，应根据场景选择。模型选择依据：Encoder 结构适合做理解任务，Decoder 结构适合做生成任务。分类任务涉及理解，因此不能完全否定BERT系列模型。错误容忍度：如果智能体误判给业务带来较大损失，建议引入人工干预或使用更可控的模型，此时不适合使用智能体。任务复杂程度：根据调用频次衡量任务简单与否，两次以内调用是简单任务，超过两次是复杂任务。对于复杂任务，若调用过程中不需要工具、自定义知识库、联网等，直接使用大模型多次调用即可；若需要，则使用增强 LLM。任务逻辑与角色：对于复杂任务，若需要控制主体逻辑，使用工作流；若不需要，再判断是单角色还是多个角色协同。单角色任务使用单智能体即可，多角色协同任务则使用多智能体。

7. 智能体的困境与挑战

实际上，智能体并非万能，原因：大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能（AGI），但实际上，距离 AGI 还很遥远，市面上某些工具的宣传存在夸张成分。

智能体存在的问题：

记忆召回问题：常用的检索增强生成（RAG）本质上仍是检索思路，只能找到相关信息，而非因果关系。因此，智能体也会陷入只关注相关信息的问题，而要解决这个问题，需要寻找因果关系，如引入图神经网络方法或因果推理等方案。错误累积问题：当系统越来越复杂，尤其是串行架构时，误差会逐级放大。所以必须保证前面环节的质量稳定性，比如 Plugin 质量问题会直接影响智能体执行质量，这也是 OpenAI 开始自建 Plugin 体系的原因。探索效率问题：智能体（Agent）设计得越复杂，效率越低。如果让其自行决策，会出现各种冗余步骤，甚至把简单问题复杂化，同时 Token 花销也较大。因此，AutoGPT 会引入人工干预环节。任务终止和结果验证问题：任务终止以及结果验证方面，智能体表现不佳，尤其是对于评估标准模糊的开放问题，智能体可能一直运行，迟迟无法给出结果。一般可从数据及模型的训练，以及引入强化学习等方向进行改进。

伯克利论文分析了多智能体失败的原因，以 MetaGPT、chatdev 等为例进行验证，发现失败率较高，达到 66% - 84%。具体原因：

流程规划和任务划分不当会导致智能体失败。智能体间（Agent-Agent）协作，讨论无意义内容，导致效率低下，关键信息被忽略。一些系统缺乏任务验证，即便有验证，也往往不起作用。例如 Manus 很火，官方展示了让智能体写一个小米 SU7 的 PPT，虽然整个流程自动化程度很高，但仔细查看内容，会发现 PPT 质量一般，距离真正可用还有一定差距。

来源：同行者一点号1

标签：应用智能体 agent 详解路线图

本文地址：http://news.43b.com.cn/a/567410.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!