Tool-Integrated RL 会是 Agents 应用突破「基模能力限制」的关键吗？

摘要：不止通用模型公司在烧钱，Vertical AI 也在疯狂卷融资？「裁人头」换「agent 员工」是否是未来 AI 公司发展唯一解？「Copilots」和「AI-enabled Services」模式能否换来「Massive Delta」的新突破？从几百万到上

机器之心PRO · 会员通讯 Week 38

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1. Tool-Integrated RL 会是 Agents 应用突破「基模能力限制」的关键吗？

「Agent」的定义和定位衍生了哪些版本？为什么加强 Agent 推理能力需要「求诸外」？基于模仿学习的 TIR 方法为何要被 RL 取代？用 RL 做 TIR 也能「涌现」？基于 RL 的 TIR 离下一代 Agentic AI 还差哪些能力？...

2. 「一人公司」不强求，「Copilots 」更能填平 AI 产业落地的「Massive Delta」？

不止通用模型公司在烧钱，Vertical AI 也在疯狂卷融资？「裁人头」换「agent 员工」是否是未来 AI 公司发展唯一解？「Copilots」和「AI-enabled Services」模式能否换来「Massive Delta」的新突破？从几百万到上亿美元融资，专注于医疗、金融、法律和客服等专业领域的 AI 初创谁能「笑到最后」？...

3. 从「装应用」到「即用即流」，生成式 AI 正在重塑软件开发？

AI 能让设计师、市场人员也写出「可运行代码」吗？下载和安装的软件时代，是否真的要被「按需生成」取代？流体计算是否撑得住用户激增的生成式 Web ？AI + 搜索的组合，会让软件发现和使用彻底重构？高速度 vs 高可靠性，AI 代码生成如何抉择？...

本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 6 项，国外方面 13 项。

本期通讯总计 28355 字，可免费试读至 7%

消耗 288 微信豆可兑换完整本期解读（约合人民币 28.8 元）

要事解读① Tool-Integrated RL 会是 Agents 应用突破「基模能力限制」的关键吗？

引言：2025 年度，简单的 Tool Use 能力已无法帮助 AI Agent 应对现实中逻辑复杂度更高，计算负担更重，以及无法单次找到答案的任务。业界因此着眼于结合强化学习与 Tool-Integrate Reasoning（TIR）方法，让 Agent 学会「借助工具思考」，从而动态适复杂且多变的任务环境。

受限于 scaling law，agentic ai 的 tool-integrated reasoning 能力有何瓶颈？

1、Agent 是人工智能在 2025 年最受关注的关键词之一。基于技术和应用的各项突破，LLM 和 LLM-based Agent 产品的核心从被动的、生成式的内容创造工具（GenAI），演变为主动的、以目标为导向的自主智能体（Agentic AI）。

2、根据动机、场景、效果和局限性的考量，人们对「Agent」的定义和预期同样发生改变，但共识在于，更强的智能体必须具备与外部世界交互并采取行动的能力，仅依赖其内部的、预训练的知识不足以完成需要复杂逻辑、多步骤推理等无法一次性得到答案的任务。

① 有一种论调将 AI 系统划分为「LLM」「AI Assistant」和「AI Agent」。LLM 指基础模型；AI Assistant 可以理解为拥有强大工具的助理，除非人类提供明确指令（如写邮件，归纳文档等），否则 AI 不会采取主动措施；AI Agent 类似自由的专家，增加了推理、规划和行动等能力，通常需要跨工具、跨 API 甚至与其他专家（Agent）一起工作。[1-1] [1-2]

② 也有工作通过「GenAI」「AI Agent」「Agentic AI」进行分类。GenAI 的核心是生成工具，无法主动发起任务和与外界交互；AI Agent 获得了「主动执行」的能力，能够自主调用工具（API）来完成相对明确的任务，但存在推理深度不足、知识更新困难等问题；Agentic AI 则是一个自主系统（类似上文的专家），里面有各司其职的 AI Agent，通过「总指挥」来链接协作。

3、在此趋势下，智能体需要能理解目标、自主规划、调用工具，最终完成任务，这使得工具集成推理（TIR）成为近期的重要研究方向。[1-3]

① 上交大研究者「紫气东来」在知乎文章中将提高智能体推理能力的工作分为「求诸内」和「求诸外」两种。

② 「求诸内」指通过 MCTS、过程监督与结果监督、强化学习来提高 LLM 的推理能力的做法，从本质上可以理解为尽可能榨取 LLM 本身的能力，区别仅在于尝试次数，反馈信号和训练方法。

③ 由于 Scaling Law 验证了模型本身的能力存在极限，因此近期的工作尝试通过「求诸外」的方式，即让 LLM 学会使用工具。

不止是工具调用，为何 TIR 的重心要从 SFT 转向 RL？

1、最初，最简单调用工具和外部知识接地形式是检索增强生成（RAG），而后在 2023 年的 2 月发布的 Toolformer 使外部工具调用有了一次概念上的飞跃，使 TIR 开始兴起。[1-4]

① Toolformer 证明了 LLM 不仅能被动地整合检索到的文本，更能通过训练主动学习决定何时以及如何调用外部 API，例如计算器、搜索引擎或翻译系统。

② 这种区别在于，TIR 让模型从一个被动的文本生成器转变为一个更主动的问题解决者。TIR 为智能体构建一个「行动层」（Action Layer），调用外部工具赋予智能体在现实世界中感知和行动的能力。

2、TIR 最大的价值在于打破传统 LLM 的能力天花板，解决处理需要精确计算、事实核查或与外部世界实时交互的任务时，其能力受到根本性制约。其具体贡献在于从「经验」和「可行性」上对模型「支持集」（Support）的扩展帮助。[1-8]

3、经验支持集扩展（Empirical Support Expansion）指外部工具使 LLM 能够生成先前在理论上不可能产生的问题解决轨迹，从而实现了能力的严格扩展。

① 例如，一个纯文本模型无法执行精确的多位数乘法或复杂的符号计算，但一个集成了 Python 解释器的模型可以将这类计算任务转化为代码并执行，从而获得精确结果。

4、可行支持集扩展（Feasible Support Expansion）则通过外部工具，使得复杂的策略在有限的 token 预算内变得切实可行。[1-8]

① 对于某些问题，纯文本模型或许可以通过极其冗长和复杂的 CoT 来逼近答案，但这种方式往往会超出实际应用的上下文长度限制，导致策略在实践中无法执行。

② 通过 TIR 能力调用工具，模型可以用几行代码或一次 API 调用来简洁地完成任务，将原本「理论上可能但实践中不可行」的解决方案，转化为高效且可行的策略。

5、TIR 将工具使用从简单的事后调用提升到与推理过程深度融合的水平，这些方法的核心在于将工具调用的结果视为一种观察，为多步决策过程中的策略优化提供奖励信号，也就是「借助工具思考」。基于 TIR 的运作模式的观察，近期有工作总结了三种典型的「涌现认知模式」。[1-7] [1-8]

来源：新浪财经

标签： agent rl tir 基模 agents应用

本文地址：http://news.43b.com.cn/a/1257141.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐