阿里巴巴团队的AgentScaler：让AI助手像人一样聪明地使用工具

摘要：这项由阿里巴巴通义实验室的方润楠、蔡世豪等研究团队领导的研究发表于2025年9月，研究论文标题为《Towards General Agentic Intelligence via Environment Scaling》。该论文已在arXiv预印本平台发布（论

这项由阿里巴巴通义实验室的方润楠、蔡世豪等研究团队领导的研究发表于2025年9月，研究论文标题为《Towards General Agentic Intelligence via Environment Scaling》。该论文已在arXiv预印本平台发布（论文编号：arXiv:2509.13311v1），感兴趣的读者可以通过https://tongyi-agent.github.io/blog 或 https://github.com/Alibaba-NLP/DeepResearch 获取更多详细信息。

当你需要订酒店时，可能要先查询可用房间，比较价格，然后进行预订，最后确认订单。这个过程涉及多个工具的协作使用。现在，阿里巴巴的研究团队想要让AI助手也能像人类一样熟练地使用各种工具来完成复杂任务。他们开发了一套名为AgentScaler的AI模型系列，这些模型能够智能地调用各种功能工具，就像一个经验丰富的助手一样为用户解决实际问题。

传统的AI助手往往只能回答问题或进行简单对话，但无法真正与外部世界交互。就好比一个博学的图书管理员，虽然知识渊博，但只能告诉你书在哪里，却无法帮你借书、还书或处理逾期费用。而AgentScaler模型则像是一个全能的个人助理，不仅知道该做什么，还能实际去执行这些操作。

研究团队面临的核心挑战是如何让AI学会在各种不同的环境中正确使用工具。这就像培养一个新员工，不仅要教会他如何使用办公软件，还要让他学会在不同情况下灵活运用这些工具。为了解决这个问题，研究人员创建了一个能够自动构建各种模拟环境的框架，让AI在这些环境中反复练习和学习。

这项研究的创新之处在于首次提出了通过大规模环境构建来提升AI智能体能力的方法。研究团队不仅开发了能够自动生成训练环境的技术，还设计了一套两阶段的训练策略，让AI先掌握基础技能，再针对特定领域进行专门训练。最终训练出的AgentScaler模型在多个权威测试中都表现出色，甚至某些方面已经接近参数量比它大几十倍的大型模型。

一、环境构建：为AI创造练习场所

要培养一个能干的AI助手，首先需要为它创造各种练习环境。研究团队将这个过程比作为运动员建造训练场馆。不同的运动需要不同的场地，游泳需要泳池，篮球需要球场，而AI学习使用工具也需要各种不同的模拟环境。

研究人员首先收集了超过3万个真实世界的API工具，这些工具涵盖了从订票、购物到项目管理等各个领域。就像收集各种运动器材一样，他们需要确保工具的多样性和实用性。接下来的关键步骤是将这些工具按照功能和用途进行分类组织。

团队采用了一种叫做"工具依赖图建模"的方法来理解工具之间的关系。这个过程类似于理解不同厨具在烹饪中的配合关系。比如，你要做一道完整的菜，可能需要先用刀切菜，然后用锅炒制，最后用盘子装盛。研究人员通过分析工具的参数和功能，找出哪些工具经常一起使用，哪些工具的输出会作为其他工具的输入。

基于这种分析，他们使用了一种叫做Louvain社区检测的算法来自动将相似的工具归类到同一个领域。这就像是自动整理一个杂乱的工具箱，把螺丝刀、扳手等机械工具放在一起，把锤子、钉子等建筑工具放在另一边。最终，研究团队识别出了超过1000个不同的工具领域。

有了工具分类之后，研究人员需要为每个领域创建相应的数据库结构。这个步骤类似于为不同类型的商店设计不同的货架系统。比如书店需要按照书籍分类设置书架，而服装店则需要按照服装类型和尺码来组织货架。每个工具领域都有其特定的数据组织方式，研究团队通过分析该领域内所有工具的参数特征，自动生成了相应的数据库结构。

最有趣的是，研究人员将每个工具都转换成了可执行的Python代码。这个过程就像把抽象的工作流程写成具体的操作手册。比如，"预订酒店"这个抽象概念被转换成了包括检查房间可用性、验证用户信息、处理支付等具体步骤的程序代码。这样做的好处是，每次工具调用都能产生真实的、可验证的结果。

为了确保生成环境的质量，研究团队还设计了严格的验证机制。他们将自己生成的环境与已有的权威测试基准进行对比，发现在某些领域，他们自动生成的环境与人工精心设计的环境在一致性方面达到了很高的水平。这证明了他们的自动化环境构建方法确实可靠有效。

二、任务构建：设计AI的练习题目

有了练习环境之后，下一步就是设计具体的练习任务。这个过程类似于为学生准备各种类型的练习题，既要有基础题也要有综合应用题。研究团队采用了一种叫做"前向模拟"的方法来生成训练任务。

这种方法的核心思想是从一个初始状态开始，逐步执行一系列工具操作，最终达到某个目标状态。就像玩拼图游戏一样，你从一堆散乱的拼图片开始，按照一定的顺序拼接，最终完成整幅图画。在AI训练中，初始状态可能是一个空的项目管理系统，经过创建项目、分配任务、设置时间表等一系列操作后，最终形成一个完整的项目计划。

为了确保任务的逻辑性和合理性，研究人员设计了一个智能的工具序列采样方法。他们首先构建了一个有向图，图中的每个节点代表一个工具，边则表示工具之间的依赖关系。然后通过在这个图上进行有向遍历来生成合理的工具使用序列。这个过程确保了生成的任务不仅在技术上可行，而且在逻辑上也说得通。

在生成每个任务的过程中，系统会为每个工具调用生成合适的参数，并在模拟的数据库环境中实际执行这些操作。这样做的好处是可以实时跟踪数据库状态的变化，确保每一步操作都是有效的。同时，这也为后续的验证提供了金标准。

研究团队特别注重任务的多样性。他们在每个领域中都生成了大量不同难度和复杂度的任务。有些任务只需要调用一两个工具就能完成，适合AI学习基础技能。而有些任务则需要调用十几个工具，涉及复杂的逻辑推理和多步规划，这些任务能够锻炼AI的高级能力。

为了让生成的任务更贴近现实应用，研究人员还加入了用户意图生成环节。他们会为每个工具序列配上一个合理的用户需求描述。比如，如果工具序列涉及查询航班、比较价格、预订机票等操作，对应的用户意图可能是"我需要预订下周从北京到上海的机票，希望找到性价比最高的选择"。这样的设计让AI不仅学会了如何使用工具，还学会了理解用户的真实需求。

三、模拟交互：让AI在实战中学习

有了环境和任务之后，下一步就是让AI在这些环境中进行实际练习。研究团队设计了一个完整的模拟交互系统，让AI助手与模拟用户进行对话，在对话过程中学会正确使用各种工具。

这个模拟系统就像是一个高级的角色扮演游戏。在这个游戏中，有三个主要角色：模拟用户、AI助手和环境系统。模拟用户会提出各种需求和问题，AI助手需要通过调用工具来满足这些需求，而环境系统则负责执行工具调用并返回真实的结果。

模拟用户的设计特别巧妙。它不是简单地按照脚本提问，而是能够根据AI助手的回应动态调整自己的行为。比如，当AI助手询问更多信息时，模拟用户会提供相应的详细信息。当AI助手完成了部分任务时，模拟用户会给出反馈或提出新的要求。这种动态交互让整个训练过程更加真实和丰富。

在交互过程中，系统会详细记录每一次对话和工具调用。这些记录包括用户的原始需求、AI助手的回应、调用的工具序列、工具返回的结果以及最终的对话结果。这些详细的记录就像是AI助手的学习笔记，记录了它在各种情况下的表现和学习过程。

为了确保训练数据的质量，研究团队设计了一套严格的过滤机制。这套机制有三个层次的质量控制。首先是有效性控制，确保生成的对话具有合理的用户助手交替结构，并且没有严重的重复或循环。其次是环境状态对齐，验证AI助手的工具调用是否真正改变了环境状态，达到了预期的效果。最后是精确匹配，要求AI助手调用的工具序列与预设的黄金标准完全一致。

特别值得一提的是，研究团队并不会过滤掉那些包含工具调用错误的对话记录。他们认为，学会从错误中恢复也是AI助手的重要能力。只要最终能够完成任务目标，即使中间出现了一些错误尝试，这样的对话记录仍然具有训练价值。这种设计理念让训练出的AI助手更加鲁棒，能够在现实世界的不确定环境中更好地工作。

四、两阶段学习：从入门到精通的成长之路

在收集了大量高质量的训练数据后，研究团队设计了一个两阶段的学习策略来训练AI助手。这个策略就像是培养一个专业技能人员的完整教育体系，既有通识教育也有专业培训。

第一阶段是基础能力培养阶段。在这个阶段，AI助手需要学习最基本的工具使用技能和用户交互能力。这就像学习开车一样，首先要掌握基本的操作技巧，比如如何启动引擎、如何转方向盘、如何刹车等。在AI训练中，这个阶段主要让AI学会何时应该调用工具、如何正确解析工具返回的结果、以及如何将工具输出转换成对用户友好的回应。

研究团队在第一阶段使用了来自多个通用领域的训练数据，确保AI助手能够建立起广泛而扎实的基础能力。这些数据涵盖了各种常见的工具类型和使用场景，让AI助手对工具使用有一个全面的理解。这个阶段的训练重点是培养AI的通用能力，而不是针对特定领域的专门技能。

第二阶段是专业化培训阶段。在掌握了基础技能之后，AI助手开始接受针对特定垂直领域的专门训练。这就像医学生在完成基础医学教育后选择专科进行深造一样。在这个阶段，AI助手会接受来自特定领域（如电商、航空、电信等）的大量专业训练数据。

专业化训练的目标是让AI助手不仅能够使用该领域的专门工具，还能够深度理解该领域的业务逻辑和用户需求特点。比如，在电商领域，AI助手需要理解商品搜索、价格比较、库存查询、订单处理等电商特有的业务流程。而在航空领域，它需要熟悉航班查询、座位选择、行李政策、退改签规则等航空业务的特殊性。

在训练过程中，研究团队采用了一种特殊的损失函数设计。他们只对AI助手生成的工具调用和自然语言回应部分进行梯度更新，而对用户输入和工具返回结果部分则不进行参数更新。这样的设计确保AI助手能够学会生成正确的工具调用和合适的用户回应，同时也能够正确理解和利用用户输入以及工具返回的信息。

这种两阶段学习策略的效果非常显著。实验结果显示，通过第一阶段训练，AI助手已经具备了基本的工具使用能力。而经过第二阶段的专业化训练后，它在特定领域的表现得到了进一步的显著提升。这证明了先建立广泛基础、再进行专业深化的教育理念在AI训练中同样有效。

五、实验验证：检验AI助手的实际能力

为了验证AgentScaler模型的实际效果，研究团队在三个权威的测试基准上进行了全面的评估。这些测试就像是AI助手的期末考试，涵盖了不同难度和类型的任务，能够全面检验AI助手的真实能力水平。

第一个测试是τ-bench，主要评估AI助手在零售和航空两个领域的表现。这个测试就像是让AI助手去处理真实的客服工作，需要帮助客户查询商品、处理订单、预订机票等实际业务。测试中使用的评估指标是"pass@1"，也就是AI助手在第一次尝试时就能正确完成任务的比例。

第二个测试是τ?-Bench，在τ-bench的基础上增加了电信领域，涵盖了零售、航空和电信三个领域。这个测试更加全面，能够检验AI助手在不同行业中的适应能力。除了pass@1指标外，研究团队还分析了pass@k的趋势变化，观察AI助手在多次尝试中的稳定性表现。

第三个测试是ACEBench，这是一个更加综合性的评估基准，包含了Normal（普通任务）、Special（特殊任务）和Agent（智能体任务）三个不同难度级别的子集。这个测试就像是AI助手的综合能力考试，既有基础题也有高难度的综合应用题。

实验结果让人印象深刻。AgentScaler模型在所有测试中都表现出色，特别是在与其他开源模型的比较中显示出了明显优势。最小的AgentScaler-4B模型虽然只有40亿个参数，但其性能已经达到了许多300亿参数模型的水平。这就像是一个小学生在数学竞赛中击败了许多高中生，显示出了训练方法的有效性。

更令人惊喜的是，AgentScaler-30B-A3B模型在许多测试项目中的表现已经接近甚至超过了一些参数量达到万亿级别的大型模型。这个结果证明了通过精心设计的训练方法，即使是相对较小的模型也能够达到很高的性能水平。这对于实际应用来说意义重大，因为较小的模型在部署成本和响应速度方面都有明显优势。

研究团队还进行了细致的稳定性分析。他们发现，AgentScaler模型不仅在单次尝试中表现优秀，在多次尝试的一致性方面也表现良好。这说明模型的行为是可预测和可靠的，这对于实际应用中的用户体验非常重要。

在跨语言能力测试中，AgentScaler模型也展现出了良好的泛化能力。即使在中文版本的ACEBench测试中，模型仍然保持了优秀的性能，这说明通过英文数据训练的模型能够很好地迁移到其他语言环境中。

六、深度分析：发现AI助手的优势与挑战

通过深入分析实验结果，研究团队发现了一些有趣的现象和规律。这些发现不仅验证了他们方法的有效性，也揭示了当前AI助手技术仍面临的一些挑战。

首先，研究团队发现他们的合成数据方法具有很强的知识迁移能力。即使在与训练数据不同的测试环境中，AgentScaler模型仍然能够保持良好的性能。这就像是一个在模拟驾驶器上学会开车的人，到了真实道路上仍然能够安全驾驶。这个发现证明了通过精心设计的模拟环境进行训练确实能够培养出具有真实世界适应能力的AI助手。

在稳定性方面，研究团队进行了详细的pass@k分析。他们发现，随着尝试次数k的增加，所有模型的成功率都呈现下降趋势。这个现象揭示了当前AI助手技术的一个重要限制：模型的行为存在一定程度的不确定性。就像是一个技能还不够纯熟的工人，第一次做可能成功，但重复做同样的事情时可能会出现不同的结果。

特别引人注目的是，研究团队发现了工具调用复杂度与任务成功率之间的明显负相关关系。简单来说，需要调用的工具越多，AI助手完成任务的成功率就越低。当任务只需要调用一两个工具时，成功率可以达到80%以上。但当任务需要调用十几个工具时，成功率可能下降到30%以下。

这个发现揭示了长序列工具调用仍然是AI助手面临的一个根本性挑战。这就像是让一个人完成一个需要很多步骤的复杂任务，每一步都有出错的可能，而任何一步的错误都可能导致整个任务的失败。这个问题在现实应用中非常重要，因为许多真实世界的任务确实需要多个工具的协作完成。

研究团队还发现，不同领域的任务难度存在显著差异。航空领域的任务普遍比零售领域更加困难，而电信领域的某些任务则表现出了独特的挑战性。这种差异可能与各个领域的业务复杂度、工具种类和用户需求特点有关。比如，航空业涉及复杂的座位管理、价格策略和退改签规则，这些都增加了任务的复杂性。

在模型规模的影响方面，研究团队发现了一个有趣的现象：虽然较大的模型通常表现更好，但提升幅度并不总是与参数量成正比。这说明在工具使用能力方面，训练方法和数据质量可能比模型规模更加重要。这个发现对于实际应用具有重要意义，因为它表明即使是资源有限的场景也能够部署有效的AI助手。

七、未来展望：AI助手技术的发展方向

基于这项研究的成果和发现，可以看出AI助手技术的几个重要发展方向。首先是强化学习的引入。虽然当前的研究主要使用了监督学习方法，但研究团队已经认识到，他们构建的完全模拟环境为强化学习提供了理想的训练平台。未来可以让AI助手通过与环境的交互来不断优化自己的行为策略。

这就像是让AI助手从"照着教科书学习"转变为"在实践中摸索经验"。强化学习能够让AI助手学会在不确定的环境中做出更好的决策，特别是在面对长序列工具调用任务时，通过试错和奖励反馈来逐步提高成功率。

另一个重要的发展方向是多模态能力的扩展。当前的研究主要关注文本和API调用，但现实世界的任务往往涉及图像、音频、视频等多种类型的信息。未来的AI助手需要能够处理更加丰富的输入和输出类型，比如能够理解图表、生成可视化报告、处理语音指令等。

在实际部署方面，研究团队也指出了一些需要关注的问题。比如如何处理实时性要求较高的场景、如何确保AI助手的行为符合法律法规要求、如何保护用户隐私和数据安全等。这些问题的解决需要技术创新与政策制定的共同推进。

研究团队特别强调了他们的工作对于"小而美"模型的意义。在当前大模型竞争日趋激烈的背景下，他们证明了通过精心设计的训练方法，相对较小的模型同样能够达到很高的性能水平。这为在边缘设备上部署AI助手、降低计算成本、提高响应速度等实际需求提供了可能性。

从更宏观的角度来看，这项研究代表了AI技术从"知识型"向"行动型"的重要转变。传统的AI主要擅长回答问题和提供信息，而新一代的AI助手则能够实际执行任务、与外部系统交互、为用户创造真实价值。这种转变将深刻改变人机交互的方式，让AI成为真正的数字助理而不仅仅是信息检索工具。

说到底，AgentScaler的意义不仅在于技术指标的提升，更在于它为AI助手的实用化铺平了道路。通过系统性的环境构建、任务设计和训练策略，这项研究展示了如何培养出真正有用的AI助手。虽然在长序列任务处理等方面仍有挑战，但这个方向的前景是明确的。随着技术的不断改进和应用场景的扩展，我们有理由相信，不久的将来会出现更加智能、可靠和实用的AI助手，真正成为人们工作和生活中不可或缺的伙伴。

对于普通用户来说，这项研究预示着一个更加便利的数字化未来。当你需要规划旅行、处理工作事务或解决生活问题时，AI助手将能够代替你完成大部分繁琐的操作，让你专注于更重要和更有创意的事情上。而对于开发者和企业来说，这项研究提供了构建高效AI助手的实用方法和工具，有望推动整个行业向更加实用化的方向发展。

Q&A

Q1：AgentScaler是什么？它和普通的AI助手有什么区别？

A：AgentScaler是阿里巴巴开发的一系列AI模型，能够智能地调用各种工具来完成实际任务。与只能聊天回答问题的普通AI助手不同，AgentScaler可以实际执行操作，比如帮你查询航班、处理订单、管理项目等，就像一个真正能干活的数字助理。

Q2：AgentScaler的两阶段训练是怎么回事？为什么要这样设计？

A：两阶段训练就像培养专业人才的教育体系。第一阶段是通识教育，让AI学会基本的工具使用技能和用户交互能力。第二阶段是专业培训，针对特定领域进行深度训练。这样设计能让AI既有广泛的基础能力，又在特定领域表现专业，就像医生先学基础医学再选择专科一样。

Q3：AgentScaler在实际测试中表现如何？有什么局限性吗？

A：AgentScaler在权威测试中表现出色，40亿参数的小模型就能达到300亿参数模型的性能水平。但也有局限性，主要是在需要调用很多工具的复杂任务中成功率会下降，就像人做复杂多步骤工作时容易出错一样。这是目前AI助手技术普遍面临的挑战。

来源：科技行者一点号1

标签：模型聪明阿里巴巴 ai助手 agentscaler

本文地址：http://news.43b.com.cn/a/1408795.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!