Tool-Integrated RL 会是 Agents 应用突破 「基模能力限制」 的关键吗?

B站影视 欧美电影 2025-09-21 09:30 1

摘要:不止通用模型公司在烧钱,Vertical AI 也在疯狂卷融资?「裁人头」换 「agent 员工」是否是未来 AI 公司发展唯一解?「Copilots」和「AI-enabled Services」模式能否换来「Massive Delta」的新突破?从几百万到上

机器之心PRO · 会员通讯 Week 38

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1. Tool-Integrated RL 会是 Agents 应用突破 「基模能力限制」 的关键吗?

「Agent」的定义和定位衍生了哪些版本?为什么加强 Agent 推理能力需要「求诸外」?基于模仿学习的 TIR 方法为何要被 RL 取代?用 RL 做 TIR 也能「涌现」?基于 RL 的 TIR 离下一代 Agentic AI 还差哪些能力?...

2. 「一人公司」不强求,「Copilots 」更能填平 AI 产业落地的「Massive Delta」?

不止通用模型公司在烧钱,Vertical AI 也在疯狂卷融资?「裁人头」换 「agent 员工」是否是未来 AI 公司发展唯一解?「Copilots」和「AI-enabled Services」模式能否换来「Massive Delta」的新突破?从几百万到上亿美元融资,专注于医疗、金融、法律和客服等专业领域的 AI 初创谁能「笑到最后」?...

3. 从「装应用」到「即用即流」,生成式 AI 正在重塑软件开发?

AI 能让设计师、市场人员也写出「可运行代码」吗?下载和安装的软件时代,是否真的要被「按需生成」取代?流体计算是否撑得住用户激增的生成式 Web ?AI + 搜索的组合,会让软件发现和使用彻底重构?高速度 vs 高可靠性,AI 代码生成如何抉择?...

本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 6 项,国外方面 13 项。

本期通讯总计 28355 字,可免费试读至 7%

消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元)

要事解读① Tool-Integrated RL 会是 Agents 应用突破 「基模能力限制」 的关键吗?

引言:2025 年度,简单的 Tool Use 能力已无法帮助 AI Agent 应对现实中逻辑复杂度更高,计算负担更重,以及无法单次找到答案的任务。业界因此着眼于结合强化学习与 Tool-Integrate Reasoning(TIR)方法,让 Agent 学会「借助工具思考」,从而动态适复杂且多变的任务环境。

受限于 scaling law,agentic ai 的 tool-integrated reasoning 能力有何瓶颈?

1、Agent 是人工智能在 2025 年最受关注的关键词之一。基于技术和应用的各项突破,LLM 和 LLM-based Agent 产品的核心从被动的、生成式的内容创造工具(GenAI),演变为主动的、以目标为导向的自主智能体(Agentic AI)。

2、根据动机、场景、效果和局限性的考量,人们对「Agent」的定义和预期同样发生改变,但共识在于,更强的智能体必须具备与外部世界交互并采取行动的能力,仅依赖其内部的、预训练的知识不足以完成需要复杂逻辑、多步骤推理等无法一次性得到答案的任务。

① 有一种论调将 AI 系统划分为「LLM」「AI Assistant」和「AI Agent」。LLM 指基础模型;AI Assistant 可以理解为拥有强大工具的助理,除非人类提供明确指令(如写邮件,归纳文档等),否则 AI 不会采取主动措施;AI Agent 类似自由的专家,增加了推理、规划和行动等能力,通常需要跨工具、跨 API 甚至与其他专家(Agent)一起工作。[1-1] [1-2]

② 也有工作通过「GenAI」「AI Agent」「Agentic AI」进行分类。GenAI 的核心是生成工具,无法主动发起任务和与外界交互;AI Agent 获得了「主动执行」的能力,能够自主调用工具(API)来完成相对明确的任务,但存在推理深度不足、知识更新困难等问题;Agentic AI 则是一个自主系统(类似上文的专家),里面有各司其职的 AI Agent,通过「总指挥」来链接协作。

3、在此趋势下,智能体需要能理解目标、自主规划、调用工具,最终完成任务,这使得工具集成推理(TIR)成为近期的重要研究方向。[1-3]

① 上交大研究者「紫气东来」在知乎文章中将提高智能体推理能力的工作分为「求诸内」和「求诸外」两种。

② 「求诸内」指通过 MCTS、过程监督与结果监督、强化学习来提高 LLM 的推理能力的做法,从本质上可以理解为尽可能榨取 LLM 本身的能力,区别仅在于尝试次数,反馈信号和训练方法。

③ 由于 Scaling Law 验证了模型本身的能力存在极限,因此近期的工作尝试通过「求诸外」的方式,即让 LLM 学会使用工具。

不止是工具调用,为何 TIR 的重心要从 SFT 转向 RL?

1、最初,最简单调用工具和外部知识接地形式是检索增强生成(RAG),而后在 2023 年的 2 月发布的 Toolformer 使外部工具调用有了一次概念上的飞跃,使 TIR 开始兴起。[1-4]

① Toolformer 证明了 LLM 不仅能被动地整合检索到的文本,更能通过训练主动学习决定何时以及如何调用外部 API,例如计算器、搜索引擎或翻译系统。

② 这种区别在于,TIR 让模型从一个被动的文本生成器转变为一个更主动的问题解决者。TIR 为智能体构建一个「行动层」(Action Layer),调用外部工具赋予智能体在现实世界中感知和行动的能力。

2、TIR 最大的价值在于打破传统 LLM 的能力天花板,解决处理需要精确计算、事实核查或与外部世界实时交互的任务时,其能力受到根本性制约。其具体贡献在于从「经验」和「可行性」上对模型「支持集」(Support)的扩展帮助。[1-8]

3、经验支持集扩展(Empirical Support Expansion)指外部工具使 LLM 能够生成先前在理论上不可能产生的问题解决轨迹,从而实现了能力的严格扩展。

① 例如,一个纯文本模型无法执行精确的多位数乘法或复杂的符号计算,但一个集成了 Python 解释器的模型可以将这类计算任务转化为代码并执行,从而获得精确结果。

4、可行支持集扩展(Feasible Support Expansion)则通过外部工具,使得复杂的策略在有限的 token 预算内变得切实可行。[1-8]

① 对于某些问题,纯文本模型或许可以通过极其冗长和复杂的 CoT 来逼近答案,但这种方式往往会超出实际应用的上下文长度限制,导致策略在实践中无法执行。

② 通过 TIR 能力调用工具,模型可以用几行代码或一次 API 调用来简洁地完成任务,将原本「理论上可能但实践中不可行」的解决方案,转化为高效且可行的策略 。

5、TIR 将工具使用从简单的事后调用提升到与推理过程深度融合的水平,这些方法的核心在于将工具调用的结果视为一种观察,为多步决策过程中的策略优化提供奖励信号,也就是「借助工具思考」。基于 TIR 的运作模式的观察,近期有工作总结了三种典型的「涌现认知模式」。[1-7] [1-8]

来源:新浪财经

相关推荐