rStar2-Agent:GRPO-RoC算法让14B模型在复杂推理超越前沿大模型

B站影视 日本电影 2025-09-03 20:14 2

摘要:Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果:一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率,超越了671B参数的DeepSeek-R1(79.8%)。这不是简单的参数效率提升,而

Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果:一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率,超越了671B参数的DeepSeek-R1(79.8%)。这不是简单的参数效率提升,而是AI推理的进步。

过去几年,大语言模型的发展主要依赖Chain-of-Thought(CoT)提示技术,让模型"展示工作过程"。这催生了"思考更久"的训练范式——通过更长的推理链条来提升性能。OpenAI的o系列和DeepSeek-R1都证明了这条路径在强化学习加持下的有效性。

但这个方向存在明显的天花板。在竞赛数学这类真正困难的问题上,长CoT模型容易犯细微错误,缺乏灵活调整策略的能力,即使发现错误也难以有效自我纠正。就像一个学生能写出100步解题过程,却没有足够的理解力意识到第三步就错了。

rStar2-Agent的突破在于从"思考更久"转向"思考更聪明"。这个模型不仅能使用Python工具进行计算验证,更重要的是学会了如何高效地探索解题路径、自我纠错,并在工具使用中保持简洁性。

rStar2-Agent训练LLMs在专用执行环境中原生使用Python编程工具,为复杂问题解决实现更高级和有效的推理。

rStar2-Agent的成功来自三个关键技术的有机结合。首先是超高效的RL基础设施,能够处理45,000个并发工具调用,平均延迟仅0.3秒,这为大规模智能体训练提供了技术保障。

其次是GRPO-RoC算法,这是整个系统的核心。传统强化学习在智能体环境中面临"环境噪声"问题——模型可能写出有bug的代码,经过多次错误尝试后偶然得到正确答案,系统却给予满分奖励,这会强化低效的解题习惯。

GRPO-RoC通过非对称过滤策略解决了这个问题。对于失败的尝试,算法保留随机样本让模型学习什么不该做。对于成功的尝试,算法则变得极其挑剔——只奖励那些工具使用错误最少、格式规范、推理清晰的高质量解答。这种策略迫使模型不仅要得到正确答案,还要以优雅高效的方式达成目标。

通过GRPO-RoC智能体强化学习训练,rStar2-Agent-14B在数学推理方面达到了与前沿LLMs相当的竞争力,同时使用显著更少的训练计算和更小的模型规模。

第三个创新是反直觉的训练策略。与其他推理模型在SFT阶段就加载大量复杂推理示例不同,rStar2-Agent采用"非推理冷启动"——初期只学习基础的指令遵循、JSON格式化和工具使用,把推理能力的培养完全留给强化学习阶段。这避免了模型过早固化冗长的推理模式。

要理解GRPO-RoC的精妙之处,需要先了解智能体强化学习的核心难题。比如说你在教数学,但给了学生一个时好时坏的计算器。学生不仅要解决数学问题,还要应对工具的不可靠性。当学生写出有语法错误的代码,得到报错信息,再次尝试时又出现逻辑错误,最后凭运气碰对答案——这时给予满分奖励,实际上是在强化混乱低效的解题流程。

传统RL方法试图为每种错误设计惩罚机制,但这容易被"钻空子"。GRPO-RoC采用了完全不同的思路:与其惩罚错误,不如严格筛选奖励对象。

具体机制是这样的:系统为每个问题生成32个解答尝试,然后执行非对称过滤。对于失败的尝试,保留随机样本供模型学习反面教材。对于成功的尝试算法会严格筛选,只保留那些工具调用错误最少、代码简洁、推理清晰的高质量解答。

在正确回答的轨迹中包含错误的工具调用比例。在传统的GRPO下,错误率最初下降但很快在显著水平上达到平台期。相比之下,论文的GRPO-RoC随着更多训练步骤继续减少工具相关错误。

这个策略的效果立竿见影。上图显示,传统GRPO方法下工具错误率很快进入平台期,而GRPO-RoC能持续降低错误率。模型不仅学会了解数学题,还在过程中成为更好的程序员和工具使用者。

训练策略同样体现了设计的巧思。整个过程分为两大阶段:非推理SFT和三步RL训练。

SFT阶段刻意避免复杂推理,专注于让模型掌握指令遵循、JSON格式化和基础工具使用。这个阶段产生的模型给出的都是简短回答,为后续的"简洁性约束"奠定基础。

RL训练分三步进行,每步都有明确的目标。第一步是8K token限制下的简洁训练,由于SFT阶段的铺垫,模型初期不会触及这个限制。但随着推理能力增强,开始碰到长度天花板,这迫使它寻找更高效的推理路径。第二步将限制放宽到12K tokens,让模型处理更复杂的问题。第三步专门训练最困难的17.3K问题(从原始42K中筛选),将模型推向性能极限。

多阶段强化学习训练期间的AIME24/AIME25准确性和平均训练响应长度,这个多面板图表显示了三个强化学习训练阶段的(a) AIME24分数,(b) AIME25分数,和(c)平均响应长度。说明了性能如何稳步攀升,而响应长度以受控的方式逐阶段增长。

整个训练过程仅用510步就完成,在64个MI300X GPU上跑了一周。这个效率相比那些需要数千GPU跑数月的项目来说相当惊人。

最终结果验证了"思考更聪明"的有效性。rStar2-Agent-14B不仅准确率更高,推理长度也显著更短。在AIME24和AIME25测试中,它的平均响应长度比DeepSeek-R1-Zero、QWQ-32B等模型短了数千个tokens。

rStar2-Agent-14B用显著更少的令牌实现有效推理,这个表格比较了rStar2-Agent-14B与DeepSeek-R1-Zero、QWQ-32B和官方Qwen3-14B在AIME24和AIME25上的平均响应长度(令牌数)。它清楚地显示rStar2-Agent的响应平均短了数千个令牌。

虽然RL训练完全基于数学问题,但在GPQA-Diamond科学推理基准上,模型表现从SFT后的42.1%跃升至60.9%。这说明模型学到的不是数学技巧,而是更根本的问题解决、自我纠错和工具辅助验证能力。

rStar2-Agent的成功挑战了"大即是美"的传统观念,指向了一个更加多元化的AI生态。不过作者也指出了局限性。在510步达到性能峰值后,继续训练导致性能急剧下降。这表明强化学习可以充分挖掘基础模型的潜力,但无法创造原本不存在的推理能力,或者说14B参数模型有其固有的认知天花板。

这为AI发展提出了一个关键问题:下一步突破应该来自更大的基础模型,还是更精巧的智能体训练技术?从rStar2-Agent的经验看,后者可能是一条更具前景的路径。

这项工作的意义不仅在于具体的技术突破,更在于验证了智能体系统的巨大潜力。通过环境交互和工具使用,AI模型可以获得远超纯语言训练的认知能力。GRPO-RoC算法通过巧妙的奖励机制,让模型在"噪声环境"中学会了高质量推理。分阶段训练策略则证明了"先学工具再学推理"的有效性。

来源:deephub

相关推荐