摘要:传统 LLM Agent 的工作流一旦部署,提示词、工具、记忆、协作拓扑全部固化。面对动态环境(新 API、新法规、新用户意图),只能人工硬编码——成本高、迭代慢、不可持续。
传统 LLM Agent 的工作流一旦部署,提示词、工具、记忆、协作拓扑全部固化。面对动态环境(新 API、新法规、新用户意图),只能人工硬编码——成本高、迭代慢、不可持续。
智能体演化与优化技术分三大方向: 单智能体优化、多智能体优化和领域专用优化
这篇 55 页综述首次系统提出 “Self-Evolving AI Agents” 新范式:
让 Agent 像生物一样,在与环境的持续交互中自主优化自身结构,实现终身学习(Lifelong Learning)。
图 1 演化四阶段
图 1:从离线预训练(MOP)到多智能体自演化(MASE)的 4 阶段演进
四种以LLM为核心的学习范式对比
三定律被形式化进优化目标函数,作为硬约束贯穿整篇综述。
给出一张“万能闭环图”,任何自演化系统都可拆成 4 个可插拔模块:
图 3 概念框架
图 3:系统输入 → 智能体系统 → 环境反馈 → 优化器 → 回到系统
模块职责示例System Inputs定义任务/数据/约束金融问答、代码修复Agent System被优化的“本体”LLM + 提示 + 记忆 + 工具Environment提供可量化反馈单元测试结果、人类评分Optimiser搜索更好配置贝叶斯优化、RL、进化算法智能体自演化方法的完整层次化分类,涵盖单智能体、多智能体与领域专用优化三大类别
单智能体演化:从提示、记忆到工具
单智能体优化方法概览
短程记忆长程记忆递归摘要、动态过滤外挂向量库、知识图谱、遗忘曲线代表工作:MemGPT、HippoRAG、A-MEM、MemoryBank
手工设计协作流程太贵,于是:
图 6 多智能体优化全景
图 6:多智能体工作流搜索空间 vs 优化算法 vs 目标(准/快/省/安全)
演化维度做法代表Prompt 级多 Agent 提示一起搜DSPy、AutoAgentsTopology 级把“谁跟谁说话”变成可微边GPTSwarm、DynaSwarm、G-Designer统一联合提示 + 拓扑 + 工具同时搜ADAS、EvoFlow、MAS-ZEROBackbone 级用对抗轨迹继续 SFT/RLMaPoRL、OPTIMA、Sirius领域关键约束演化技巧医疗诊断法规、多模态、不确定性多 Agent 模拟会诊、症状树动态更新分子发现化学符号合法性接入 RDKit、失败反应写进记忆代码生成单元测试即奖励Self-Edit、PyCapsule、OpenHands金融投研实时性、合规情绪 Agent + 检索 Agent + 风控 Agent 联合演化https://arxiv.org/pdf/2508.07407A Comprehensive Survey of Self-Evolving AI Agents A New Paradigm Bridging Foundation Models and Lifelong Agentic Systemshttps://github.com/EvoAgentX/Awesome-Self-Evolving-Agents来源:有趣的科技君
