摘要:这项由复旦大学的席智恒、黄继轩、廖晨阳等研究团队领导的创新研究,于2024年9月发表在arXiv平台上,论文编号为arXiv:2509.08755v1。感兴趣的读者可以通过https://github.com/woooodyy/AgentGym-RL访问完整的
这项由复旦大学的席智恒、黄继轩、廖晨阳等研究团队领导的创新研究,于2024年9月发表在arXiv平台上,论文编号为arXiv:2509.08755v1。感兴趣的读者可以通过https://github.com/woooodyy/AgentGym-RL访问完整的开源代码和数据集,项目主页为https://AgentGym-RL.github.io。
想象一个孩子学习下棋的过程。起初,他可能只会一步一步地移动棋子,毫无章法。但通过不断的练习和反馈,他逐渐学会了观察全局、制定策略,甚至能够预测对手的行动。现在,复旦大学的研究团队正在用类似的方法训练人工智能,让它们学会在复杂环境中进行长期规划和决策。
这项研究解决了一个现实中的重要问题:如何让AI智能体像人类一样,在面临复杂任务时能够制定长远计划,而不是仅仅做出简单的即时反应。就像一个优秀的厨师不仅知道如何处理每一个食材,更重要的是懂得如何协调整个烹饪流程,确保每道菜都能在最佳时间完成。
研究团队发现,现有的AI训练方法存在一个关键问题:它们往往只能处理单回合的简单任务,就像只会回答一个问题,而不能进行持续的对话和思考。更重要的是,这些方法在面对需要多步骤操作的复杂任务时,经常会出现训练不稳定甚至崩溃的情况,就像学生在学习复杂数学题时,如果一开始就接触最难的题目,往往会完全搞不懂而放弃。
为了解决这些问题,研究团队开发了名为AgentGym-RL的全新训练框架。这个框架就像一个设计精良的游乐园,为AI智能体提供了各种不同难度和类型的"游戏环境"来练习技能。从简单的网页浏览,到复杂的科学实验,再到策略游戏,应有尽有。更巧妙的是,他们还设计了一套名为ScalingInter-RL的训练方法,这种方法就像教练训练运动员一样,先从基础动作开始,逐步增加训练强度和复杂度。
这项研究的突破性在于,它让仅有70亿参数的小型AI模型,在经过训练后能够匹敌甚至超越那些拥有千亿参数的大型商业模型。这就好比一个经过专业训练的轻量级拳手,能够击败体重更大但训练不足的重量级选手。在27个不同的任务测试中,他们的模型都表现出了卓越的性能。
一、智能体训练的现状困境
在人工智能的发展历程中,让机器学会像人类一样思考和决策一直是一个巨大的挑战。现在的大多数AI系统就像一个只会背书的学生,虽然能够回答很多问题,但缺乏真正的理解和规划能力。当面临需要多个步骤才能完成的复杂任务时,它们往往显得手足无措。
传统的AI训练方法主要依赖于监督学习,这就像老师给学生提供标准答案,让学生反复练习直到能够准确复制。虽然这种方法在某些场景下效果不错,但它有一个致命的弱点:学生只是在机械地模仿,并没有真正理解问题的本质,更不用说学会独立思考和创新了。
更糟糕的是,当前的大多数AI训练方法都集中在单回合任务上,就像只教学生如何回答单选题,而不教他们如何写作文或解决复杂的数学应用题。这导致AI系统在面对需要持续互动和长期规划的任务时表现糟糕。比如,一个AI可能能够识别网页上的按钮,但它不知道应该按什么顺序点击这些按钮来完成一个完整的购物流程。
研究团队发现,即使有一些尝试使用强化学习来训练多回合交互能力的研究,但这些方法在训练过程中极不稳定。就像一个初学者试图同时学习开车和导航,往往会因为任务过于复杂而频繁出错,最终放弃学习。这种训练不稳定的问题严重限制了AI智能体的发展潜力。
二、AgentGym-RL框架的创新设计
面对这些挑战,复旦大学的研究团队设计了一个全新的训练框架AgentGym-RL。这个框架就像一个设计精良的培训学校,为AI智能体提供了一个完整的学习环境。
框架的核心理念是模块化设计,就像搭积木一样。研究人员可以根据需要自由组合不同的环境、智能体和训练算法。这种设计让框架具有极高的灵活性和扩展性,就像一个多功能的健身房,可以根据不同人的需求调整训练设备和课程安排。
环境模块是这个框架的基础,它提供了五种不同类型的训练环境。网页导航环境让AI学会在复杂的网站中找到所需信息,就像教会一个人如何在大型商场中找到特定的店铺。深度搜索环境训练AI进行多步骤的信息检索和推理,类似于教会学生如何进行深入的学术研究。数字游戏环境通过类似Minecraft的文本游戏,让AI学会制定策略和管理资源。具身任务环境训练AI在虚拟空间中导航和操作物体,就像教机器人如何在房间中移动和抓取物品。科学任务环境则让AI学会进行科学实验和数据分析。
智能体模块负责处理推理和决策过程。它就像大脑的思维中心,接收来自环境的信息,进行分析和推理,然后做出相应的行动决策。这个模块支持多种不同的推理策略和采样配置,可以根据具体任务的需求进行调整。
训练模块则提供了完整的强化学习训练流程。它支持多种主流的强化学习算法,包括PPO、GRPO和REINFORCE++等。这些算法就像不同的教学方法,每种方法都有其独特的优势和适用场景。训练模块还负责管理整个训练过程,包括轨迹收集、优势估计、策略优化和奖励塑形等步骤。
为了确保框架的可扩展性和可靠性,研究团队进行了大量的工程优化。他们重新设计了WebArena环境的浏览器架构,使得单个服务器可以同时管理多个浏览器实例,大大提高了并行处理能力。在SciWorld环境中,他们解决了内存泄露问题,确保长时间训练的稳定性。这些优化让框架能够支持大规模的并行训练,就像一个能够同时容纳数千名学生的超大型学校。
三、ScalingInter-RL渐进训练方法
在解决了训练环境的问题后,研究团队面临的下一个挑战是如何设计有效的训练策略。他们发现,如果一开始就让AI面对最复杂的长期任务,就像让一个刚学会走路的孩子立即去跑马拉松一样,结果往往是灾难性的。
基于这个观察,他们开发了ScalingInter-RL方法。这种方法的核心思想是循序渐进,就像教练训练运动员一样,从基础训练开始,逐步增加训练强度和复杂度。
在训练的初期阶段,系统限制AI与环境的交互回合数,强调利用已知信息做出最佳决策,这个阶段主要关注的是让AI掌握基本技能。就像学开车时,教练首先让学员在空旷的练车场熟悉基本操作,而不是直接上繁忙的马路。通过这种方式,AI能够在相对简单的环境中建立信心,掌握基础的决策模式。
随着训练的进行,系统逐步增加允许的交互回合数,鼓励AI进行更多的探索和尝试。这就像逐渐增加训练的难度和强度,让AI有机会学习更复杂的策略和行为模式。在这个过程中,AI不仅要学会利用已有的知识,还要学会在不确定的情况下进行探索和学习。
这种渐进式的训练方法解决了传统强化学习中的一个关键问题:探索与利用的平衡。在训练早期,如果让AI进行过多的随机探索,它可能会陷入无效的行为循环,就像一个迷路的人在原地打转。而如果过度限制探索,AI又无法学到足够丰富的策略。ScalingInter-RL通过时间维度上的渐进调节,巧妙地解决了这个矛盾。
研究结果表明,这种方法不仅提高了训练的稳定性,还显著提升了最终的性能。在多个测试环境中,使用ScalingInter-RL训练的AI都表现出了更强的适应性和更稳定的表现。
四、五大训练环境的详细解析
为了全面测试AI智能体的能力,研究团队精心设计了五种不同类型的训练环境,每种环境都针对智能体的不同能力进行专门训练。
网页导航环境基于WebArena平台,模拟了真实世界中的网站交互场景。这个环境包含了四个不同的领域:在线购物、讨论论坛、协作开发和商业内容管理。AI需要学会像人类用户一样浏览网页、点击按钮、填写表单和搜索信息。这就像训练一个客服人员,让他们学会如何帮助客户在复杂的网站上完成各种任务。环境还提供了地图导航、计算器和记事本等辅助工具,让训练更加贴近实际应用场景。
深度搜索环境专注于训练AI的信息检索和推理能力。这个环境配备了搜索引擎接口,AI需要学会根据问题动态生成搜索查询,从检索到的信息中提取相关内容,并将多个信息源的内容整合起来得出最终答案。这个过程就像训练一个研究助手,让他们学会如何进行深入的文献调研和分析。环境涵盖了七个不同的数据集,包括自然问题、百科问答和多跳推理等任务类型。
数字游戏环境采用了TextCraft,这是一个基于文本的Minecraft风格游戏。在这个环境中,AI需要学会制作工具、管理库存、导航虚拟空间和制定长期策略。任务的难度通过制作树的深度来衡量,从简单的单步制作到需要多个步骤的复杂物品制作。这就像训练一个建筑工程师,让他们学会如何规划和执行复杂的建设项目。
具身任务环境使用BabyAI平台,提供了一个可控的网格世界,AI需要根据自然语言指令进行导航和物体操作。这个环境测试的是AI的空间推理能力和指令理解能力。任务包括移动物体、开锁门锁和与环境中的各种对象交互。这类似于训练一个机器人如何在真实环境中执行各种物理任务。
科学任务环境基于SciWorld平台,专门设计用于科学探索和实验。AI需要学会使用各种科学仪器,进行实验设计,收集和分析数据。任务涵盖了物理、化学和生物等多个科学领域,从简单的温度测量到复杂的化学反应分析。这就像训练一个科学研究助手,让他们学会如何进行严格的科学实验和数据分析。
这五种环境的设计理念是互补性和渐进性。每种环境都针对智能体的特定能力进行训练,而所有环境合起来则提供了一个全面的能力测试平台。通过在这些不同环境中的训练,AI智能体可以获得更全面和鲁棒的决策能力。
五、实验结果与性能突破
研究团队在五个不同的训练环境中进行了大规模的实验,结果令人印象深刻。他们的70亿参数模型在经过AgentGym-RL框架训练后,平均性能提升了33.65个百分点,这在AI领域是一个相当显著的改进。
最引人注目的是,这个相对较小的模型竟然能够匹敌甚至超越那些参数规模达到数千亿的大型商业模型。在与OpenAI o3、Gemini-2.5-Pro和GPT-4o等顶级模型的比较中,AgentGym-RL训练的模型在多个任务上都表现出了相当甚至更优的性能。这就像一个经过专业训练的轻量级选手击败了那些体重更大但训练不足的重量级对手。
在网页导航任务中,ScalingInter-7B模型达到了26.00%的整体准确率,显著超越了GPT-4o的16.00%和Gemini-2.5-Pro的28.00%。特别是在购物和内容管理系统任务中,该模型分别达到了33.33%和26.67%的准确率,在所有模型中名列前茅。
深度搜索任务的结果更加令人震惊。ScalingInter-7B模型取得了38.25的整体得分,不仅超越了GPT-4o的26.75分和Gemini-2.5-Pro的36.50分,还接近了最强的开源模型DeepSeek-R1-0528的40.25分。在自然问题任务中,该模型甚至获得了52.00的最高分。
在数字游戏环境TextCraft中,ScalingInter-7B模型的表现尤为出色,获得了91.00的整体得分,仅比顶级模型低2-3分。更重要的是,它是少数几个在最高难度级别(深度4)上获得非零分数的模型之一,得分为33.33分,这展现了其在复杂策略规划方面的独特能力。
具身任务的结果同样impressive。ScalingInter-7B模型在BabyAI基准测试中获得了96.67%的准确率,超越了OpenAI o3的94.44%和GPT-4o的86.67%。该模型在多个子任务中都取得了完美的100%分数,包括导航、物体操作和位置合成等任务。
科学任务环境中的表现更是突破性的。ScalingInter-7B模型创造了57.00的新纪录,远超所有其他开源和商业模型。在"发现"和"测试条件"等子任务中,该模型都取得了领先成绩,分别为88.64和55.42分。
这些结果不仅证明了AgentGym-RL框架的有效性,也展现了ScalingInter-RL方法的威力。通过渐进式的交互训练,相对较小的模型能够获得与大型模型相媲美甚至更优的性能,这为AI智能体的发展开辟了一条新的道路。
六、测试时计算扩展的新发现
研究团队在实验中发现了一个有趣的现象:增加测试时的计算资源,特别是允许更多的交互回合和并行采样,能够显著提升模型的性能。这个发现对于理解AI智能体的行为具有重要意义。
当研究人员逐步增加AI与环境交互的回合数时,所有模型的性能都出现了明显提升。这就像给一个解题者更多的思考时间,他们往往能够找到更好的解决方案。在深度搜索和科学世界环境中,这种趋势尤其明显。当交互回合数从2回合增加到30回合时,模型的准确率呈现出稳步上升的趋势。
并行采样的效果同样显著。研究团队测试了Pass@K性能,也就是在K次尝试中至少有一次成功的概率。结果显示,随着采样次数的增加,成功率大幅提升。在深度搜索任务中,当采样数从1增加到64时,成功率提升了5.5个百分点。在科学世界任务中,这个提升甚至达到了7.05个百分点。
这些发现揭示了一个重要的观点:对于AI智能体而言,战略性地投入更多计算资源在推理和测试阶段,比简单地增加模型参数规模更加有效。一个70亿参数的经过专门训练的模型,在配备足够的测试时计算资源后,能够超越那些拥有700亿甚至更多参数但没有经过类似训练的大型模型。
这个现象类似于下棋中的情况:一个经验丰富的棋手,即使给他更多时间思考每一步,也比一个仅仅记住了更多棋谱但缺乏实战经验的新手下得更好。时间和计算资源的价值在于它们提供了更深入思考和探索的机会,而不仅仅是更多的知识存储。
七、算法比较与训练稳定性分析
为了验证不同强化学习算法的效果,研究团队对比了GRPO和REINFORCE++两种主流算法的性能。结果显示GRPO在多个任务上都表现出了明显的优势,这个发现对于选择合适的训练算法具有重要的指导意义。
在TextCraft、BabyAI和深度搜索等基准测试中,GRPO都显著超越了REINFORCE++。更有趣的是,使用GRPO算法训练的30亿参数模型,其性能竟然超过了使用REINFORCE++训练的70亿参数模型。这说明算法选择的重要性有时甚至超过了模型规模的影响。
这种性能差异的原因在于两种算法处理学习信号的方式不同。REINFORCE++依赖于完整轨迹的蒙特卡洛回报,这往往会产生高方差的梯度,对长轨迹中的偶然成功或失败非常敏感。而GRPO通过相对优势评估,提供了更稳定的学习信号,这在复杂的多回合任务中特别有价值。
研究团队还深入分析了不同最大交互回合数设置对训练稳定性的影响。他们发现,如果训练一开始就允许过多的交互回合(比如10回合),模型在早期阶段确实能够获得更高的奖励,但很快就会出现训练崩溃的现象。这就像让一个初学者立即尝试最复杂的任务,虽然偶尔可能会有好的表现,但很容易因为任务过于复杂而放弃学习。
相反,如果严格限制交互回合数(比如5回合),虽然训练过程更加稳定,但模型的最终性能会受到限制,无法学到足够复杂的策略。这类似于过度保护的教学方式,虽然安全但限制了学习的深度和广度。
ScalingInter-RL方法巧妙地结合了这两种方式的优点。它在训练初期限制交互回合数,确保模型能够稳定地掌握基础技能,然后逐步增加交互回合数,允许模型学习更复杂的策略。这种方法在实验中表现出了既稳定又高效的特点,最终达到了最佳的性能。
八、案例分析与行为模式对比
为了深入理解AgentGym-RL训练效果,研究团队进行了详细的案例分析,对比了基础模型和经过强化学习训练的模型在具体任务中的行为表现。
在网页导航任务中,一个典型的案例是在Reddit论坛上寻找特定主题的热门帖子并订阅。基础模型在遇到"页面未找到"错误时,会反复点击无响应的元素,陷入无效的行为循环。而经过RL训练的模型展现出了更强的适应性:当遇到错误时,它会主动回退到主页,使用搜索功能找到目标论坛,识别相关的热门内容,并成功完成订阅操作。这就像一个有经验的网络用户vs一个新手用户的区别。
在具身导航任务中,差异同样明显。给定任务是"前往蓝色盒子",基础模型会表现出典型的"重复行为模式",在已经探索过的区域徘徊,缺乏系统性的探索策略。而RL训练的模型展现出了更智能的导航行为:它会系统地探索环境,在遇到阻碍时能够战略性地回退,选择替代路径,并最终通过绿色门找到了通向目标蓝色盒子的直接路径。
在科学实验任务中,基础模型经常会混淆实验步骤,比如试图与非交互性物体进行操作,或者产生无效的行动指令。RL训练的模型则表现出了更好的任务理解能力:它能够正确识别实验对象(比如香蕉树),执行适当的库存管理操作,在多房间环境中进行有效导航,并最终成功地将实验对象放置到指定的紫色盒子中。
不过,案例分析也揭示了一些仍然存在的局限性。在科学推理任务中,当面对需要系统性调试的交互失败时,RL模型有时会用事实记忆来代替实验流程,这表明模型缺乏深度的程序性理解。在网页导航中,模型有时会表现出"过度交互"的行为模式,即使已经到达了正确的目标页面,仍然会进行不必要的点击、悬停和滚动操作,这影响了任务完成的效率。
这些案例分析不仅展现了RL训练带来的显著改进,也为进一步的研究指明了方向:如何让AI智能体获得更深层次的程序性理解,以及如何在保证探索能力的同时提高行为效率。
九、环境结构对学习效果的影响
通过对不同环境下训练结果的深入分析,研究团队发现了一个重要规律:环境的结构特征对强化学习的效果具有决定性影响。
在规则明确、因果关系清晰的模拟环境中,如TextCraft、BabyAI和SciWorld,强化学习带来了最显著的性能提升。在SciWorld的科学推理任务中,模型的得分从1.50跃升到50.50,提升幅度接近50个百分点。这类环境的共同特点是具有明确的状态转换规则和即时反馈机制,就像在一个设计精良的实验室中进行学习,每个操作都会产生可预测的结果。
相比之下,在更开放、更接近真实世界的环境如WebArena和深度搜索中,虽然RL仍然带来了积极的改进,但提升幅度相对温和。这些环境的特点是状态空间巨大,行动后果具有一定的随机性,反馈信号可能存在延迟或不明确。这就像在复杂的真实世界中学习,需要处理更多的不确定性和噪声。
这个发现对于设计有效的AI训练策略具有重要意义。它表明,在训练的早期阶段,应该优先选择那些结构化程度较高、反馈机制较为直接的环境,让AI智能体建立基础的决策模式和信心。随着训练的进行,再逐步引入更复杂、更接近真实世界的环境,提高模型的适应性和鲁棒性。
研究团队还发现,模型规模和训练方法之间存在有趣的交互效应。在结构化环境中,一个经过精心训练的小模型往往能够超越简单放大规模的大模型。这说明针对性的训练策略比单纯的参数堆叠更加有效。但在开放性环境中,模型规模的作用变得更加重要,因为这些环境需要更丰富的知识储备来处理各种可能的情况。
说到底,这项来自复旦大学的研究为我们打开了一扇通向智能AI的新大门。通过巧妙地结合渐进式训练和多样化环境,研究团队证明了一个小而精的AI模型完全可以和那些庞大的商业模型平起平坐,甚至在某些方面表现得更出色。
这个发现的意义远远超出了技术层面。它告诉我们,在AI发展的道路上,方法比规模更重要,策略比数据更关键。就像培养一个优秀的学生,关键不在于给他灌输更多的知识,而在于教会他如何思考、如何学习、如何在复杂的环境中做出明智的决策。
AgentGym-RL框架的开源发布也体现了研究团队的开放精神。他们不仅分享了研究成果,还提供了完整的代码和数据集,让全世界的研究者都能在这个基础上进行进一步的探索和创新。这就像建造了一座桥梁,连接了学术研究和实际应用,为AI智能体技术的普及和发展铺平了道路。
当我们展望未来时,这项研究提出的渐进式训练理念可能会成为AI教育的标准模式。正如人类学习从简单到复杂、从具体到抽象一样,AI的学习过程也应该遵循类似的规律。这不仅能够提高训练效率,还能让AI系统获得更强的适应性和创造性。
对于普通人来说,这项研究意味着我们很快就能看到更智能、更可靠的AI助手。它们不再是简单的问答机器,而是真正能够理解复杂任务、制定长期计划、并在各种环境中灵活应对的智能伙伴。从帮助我们浏览复杂的网站,到协助进行科学研究,这些AI智能体将在我们的日常生活中发挥越来越重要的作用。
更重要的是,这项研究展现了中国在AI基础研究领域的实力和创新能力。复旦大学团队的工作不仅在技术上取得了突破,在研究方法和思路上也为国际AI社区贡献了新的智慧。这让我们有理由相信,在人工智能这个关键技术领域,中国正在从跟随者变成引领者。
如果读者对这项研究的技术细节感兴趣,建议访问项目的GitHub页面(https://github.com/woooodyy/AgentGym-RL)获取完整的代码和数据集,或者查阅发表在arXiv平台上的完整论文(编号:arXiv:2509.08755v1)进行深入学习。
Q&A
Q1:AgentGym-RL框架是什么?它解决了什么问题?
A:AgentGym-RL是复旦大学开发的AI智能体训练框架,专门解决现有AI系统只能处理简单单回合任务的局限性。该框架提供了网页导航、深度搜索、数字游戏、具身任务和科学实验等五种训练环境,让AI学会像人类一样进行长期规划和多步决策,而不是仅仅做出即时反应。
Q2:ScalingInter-RL训练方法有什么特别之处?
A:ScalingInter-RL采用渐进式训练策略,就像教练训练运动员一样从基础开始。训练初期限制AI与环境的交互回合数,让它专注于掌握基本技能和简单任务;随着训练进行,逐步增加交互回合数,鼓励AI进行更复杂的探索和策略学习。这种方法解决了传统强化学习训练不稳定的问题,让70亿参数的小模型能够匹敌千亿参数的大型商业模型。
Q3:这项研究对普通人有什么实际意义?
A:这项研究将催生更智能的AI助手,它们能够理解复杂任务、制定长期计划并在各种环境中灵活应对。未来我们可能会看到AI助手帮助处理复杂的网页操作、协助进行深度信息搜索、辅助科学研究等。更重要的是,这表明通过巧妙的训练方法,可以用相对较小的计算资源获得强大的AI能力,这将降低AI技术的使用门槛,让更多人受益。
来源:科技行者一点号1