从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

摘要：近年来，大语言模型（LLM）已展现出卓越的通用能力，但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境，模型无法实时调整其内部参数，这一根本性瓶颈日益凸显。

近年来，大语言模型（LLM）已展现出卓越的通用能力，但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境，模型无法实时调整其内部参数，这一根本性瓶颈日益凸显。

当我们将视野从提升静态模型的规模，转向构建能够实时学习和适应的动态智能体时，一个全新的范式——自进化智能体（Self-evolving Agents）——正引领着人工智能领域的变革。

然而，尽管学术界与工业界对自进化智能体的兴趣与日俱增，但整个领域仍缺乏一个系统性的梳理与顶层设计。多数研究将「演化」作为智能体整体框架的一个子集，未能深入回答该领域三个最根本的问题：智能体的哪些部分应该演化（What）？演化何时发生（When）？以及，演化如何实现（How）？

为应对上述挑战，普林斯顿大学联合多所顶尖机构的研究者们联合发布了首个全面且系统的自进化智能体综述。该综述旨在为这一新兴领域建立一个统一的理论框架和清晰的路线图，最终为实现通用人工智能（AGI）乃至人工超级智能（ASI）铺平道路。

论文标题：A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence论文地址：https://arxiv.org/pdf/2507.21046GitHub：https://github.com/CharlesQ9/Self-Evolving-AgentsX (Twitter)：https://x.com/JiahaoQiu99/status/1950093150003089823

为确保研究的严谨性，该综述首先为「自进化智能体」提供了一套形式化的定义，为整个领域的研究和讨论奠定了数学基础。

环境（Environment）：智能体所处的环境被定义为一个部分可观察马尔可夫决策过程（POMDP）。这个环境包含了智能体需要实现的潜在目标（Goals）、环境的内部状态（States）、智能体可以执行的动作（Actions，如文本推理、工具调用）、状态转移概率，以及用于评估的反馈/奖励函数（Reward Function）。智能体无法完全观测到环境的全部状态，只能接收到观测（Observations）。智能体系统（Agent System）：一个智能体系统（Π）被解构为四个核心组成部分：架构（Γ）：决定了系统的控制流程或多智能体间的协作结构。模型（{ψi}）：底层的语言模型或多模态模型。上下文（{Ci}）：包含提示（Prompts）和记忆（Memory）等信息。工具集（{Wi}）：智能体可用的工具或 API 集合。自进化策略（Self-evolving Strategy）：这是定义的核心。一个自进化策略被形式化为一个转换函数 f。该函数接收当前智能体系统（Π）、其在任务中生成的轨迹（τ）以及获得的反馈（r）作为输入，然后输出一个全新的、经过演化的智能体系统（Π'）。这个过程 Π' = f(Π, τ, r) 精确地描述了「进化」这一行为。终极目标（Objective）：自进化智能体的设计目标，是构建一个最优的自进化策略 f，使得智能体在一系列连续任务上的累积效用（Cumulative Utility）最大化。这为所有演化方法提供了一个统一的优化方向。

该综述的核心贡献是围绕「What、When、How、Where」四个维度，构建了一个用于分析和设计自进化智能体的完整框架，并系统梳理了相关的前沿技术。

此维度明确了智能体系统中可以进行自我提升的四大核心支柱：

模型（Models）：这是智能体认知能力的核心。演化可以发生在两个层面：一是决策策略（Policy）的优化，例如通过自我生成挑战性任务（如 SCA）或利用自然语言反馈进行在线微调（如 SELF、TextGrad），直接更新模型参数；二是经验（Experience）的积累与学习，智能体通过与环境交互（如 Reflexion 的自我反思机制、RAGEN 的强化学习框架）将成功或失败的经验转化为学习信号，驱动迭代改进。上下文（Context）：这是塑造智能体行为的动态信息流。演化体现在两个方面：一是记忆（Memory）的演化，智能体需要学会动态管理其长期记忆，例如通过 Mem0 框架中的 ADD/MERGE/DELETE 机制来保持记忆的一致性，或像 Expel 一样从经验中提炼出可泛化的规则和见解；二是指令提示（Prompt）的自动化优化，从简单的候选提示生成（如 APE），到将整个工作流视为可微分程序进行联合优化的复杂框架（如 DSPy），再到面向多智能体系统的通信模式优化（如 MASS）。工具（Tools）：这是智能体与外部世界交互的桥梁，也是能力拓展的关键。其演化路径可分为三步：首先是新工具的自主创造（Creation），智能体或通过探索式学习（如 Voyager），或通过响应式代码生成（如 Alita）来弥补能力短板；其次是已有工具的精通（Mastery），通过自我纠错循环（如 LearnAct）来修复和完善工具的功能与文档；最后是管理与选择（Management & Selection），当工具库变得庞大时，智能体需要高效地检索和组合工具，例如 ToolGen 将工具调用转化为生成问题，而 AgentSquare 则通过元学习自动寻找最优的组件配置。架构（Architecture）：这是智能体系统的顶层设计。演化既可以针对单智能体，例如优化其内部固定的工作流节点（如 TextGrad），甚至赋予其重写自身源代码的能力（如 Darwin Gödel Machine）；也可以针对多智能体系统，例如通过蒙特卡洛树搜索等方法自动发现最优的协作流程（如 AFlow），或利用多智能体强化学习（如 ReMA）来共同演化出高效的协同策略。

演化的时机决定了学习与任务执行的关系，主要分为两大模式，每种模式下都可以运用上下文学习（ICL）、监督微调（SFT）和强化学习（RL）等范式。

测试时自进化（Intra-test-time Self-evolution）：这指的是在任务执行期间发生的实时适应。当智能体在解决某个特定问题时遇到障碍，它会即时启动学习机制。例如，AdaPlanner 通过 ICL 在执行中动态修正计划；一些前沿工作探索了利用「self-edits」指令触发即时 SFT 来更新模型权重；而 LADDER 框架则通过 RL 机制实现了「即时技能获取」，在遇到难题时当场进行针对性训练。测试间自进化（Inter-test-time Self-evolution）：这是在任务执行之后发生的、更主流的演化模式。智能体利用已完成任务的经验积累，对自身能力进行迭代更新，为未来任务做准备。例如，STaR 和 SiriuS 等方法通过 SFT 范式，让模型从自己成功或失败的推理链中生成新的训练数据，实现「自举式」提升；而 RAGEN 和 WebRL 等框架则利用 RL，在任务间歇期通过大量与环境的交互来优化策略。

实现演化的具体方法论，即智能体如何将经验和反馈转化为能力提升，主要分为三大范式。

基于奖励的演化（Reward-based Evolution）：这是最核心的演化驱动力，通过设计不同形式的奖励信号来引导智能体。奖励信号可以是非常丰富的：文本反馈（Textual Feedback）：利用自然语言提供详细、可解释的改进建议，比单一的标量奖励更具指导性（如 Reflexion）。内部奖励（Internal Rewards）：利用模型自身的置信度或不确定性作为奖励，实现无外部监督的自我评估与校准（如 CISC）。外部奖励（External Rewards）：来自环境的直接反馈（如工具执行成功/失败）、多数投票或显式规则。隐式奖励（Implicit Rewards）：从没有明确标记为「奖励」的信号中学习，例如直接从模型 logits 中提取内生的奖励函数。模仿与演示学习（Imitation & Demonstration Learning）：智能体通过学习高质量的范例来提升能力，尤其适用于有充足专家数据或可以自生成高质量轨迹的场景。学习来源可以是自我生成的演示（如 STaR）、跨智能体的演示（如从共享的经验库中学习），或是两者的混合。基于种群的演化方法（Population-based & Evolutionary Methods）：这种方法借鉴生物进化思想，同时维护多个智能体变体或团队，通过选择、变异、竞争等机制并行探索广阔的解空间，从而发现传统优化方法难以触及的新颖策略与架构。其演化对象可以是单个智能体（如 Darwin Gödel Machine 的开放式代码进化），也可以是多智能体系统（如 EvoMAC 的「文本反向传播」机制）。

此维度明确了自进化智能体的应用场域，展示了其在不同类型任务中的演化路径。

通用领域演化（General Domain Evolution）：这类智能体旨在成为多才多艺的数字助手，其演化目标是拓展在广泛任务上的通用能力。实现这一目标的机制包括：记忆机制：智能体通过总结历史成败经验，形成可复用的知识（如 Tips、Shortcuts），以应对未来的新任务。模型-智能体协同进化：智能体与其辅助模型（如奖励模型、世界模型）共同进化，通过相互促进来提升整体性能和泛化能力。课程驱动训练：系统能够根据智能体的表现自动生成难度适宜的任务，形成一个自适应的「课程表」（如 WebRL），引导智能体由易到难地扩展能力。特定领域演化（Specialized Domain Evolution）：这类智能体则专注于在某一垂直领域内「深耕」，通过演化成为该领域的专家。论文展示了其在多个领域的应用潜力：编码（Coding）：智能体可以自主修改代码库（如 SICA），或通过多智能体协作进行代码生成、测试和优化。图形用户界面（GUI）：智能体通过与桌面、网页和移动应用的真实交互来学习，从失败轨迹中反思，或自动从界面中挖掘功能，实现对图形界面的精准操控。金融（Financial）：智能体通过在模拟和真实环境中进行交易，不断迭代和优化其量化策略与领域知识库（如 QuantAgent）。医疗（Medical）：智能体在模拟医院中「行医」以提升诊断能力（如 Agent Hospital），或作为虚拟生物学家进行药物靶点发现（如 OriGene）。教育（Education）：智能体可以作为个性化导师，根据学生的反应调整教学策略（如 PACE），或作为教师助手，通过多智能体对抗来优化课程计划。