摘要:清华大学智能产业研究院(AIR)与字节跳动(ByteDance)联合实验室 SIA-Lab 开源了其最新研发的大规模 LLM 强化学习系统 ——Decoupled Clip andDynamic sAmplingPolicyOptimization(DAPO)
清华大学智能产业研究院(AIR)与字节跳动(ByteDance)联合实验室 SIA-Lab 开源了其最新研发的大规模 LLM 强化学习系统 —— Decoupled Clip and Dynamic sAmpling Policy Optimization(DAPO)。在纯 RL 端的比较下超越了 DeepSeed R1 模型所使用的 GRPO 算法,取得新的 SOTA 结果。
•项目主页:
•Paper:
•Code & Dataset:https://github.com/BytedTsinghua-SIA/DAPO?tab=readme-ov-file
DAPO 破解大规模 RL 训练难题
尽管 OpenAI 和 DeepSeek 通过大规模强化学习训练出了先进的推理模型,其 RL 训练算法与关键技术细节却仍不明朗。众多研究人员发现,即便严格依照 DeepSeek 公开发表的论文所阐述的方法进行操作,依旧难以复现其效果:
根据 DeepSeek-R1 技术报告,DeepSeek-R1-Zero-Qwen-32B 在 AIME 2024 上达到了 47 分。此前的复现工作中,Open-Reasoner-Zero 达到了最好的效果,在同样的实验设定下取得了 AIME 2024 35 分,而更多的复现尝试则表现挣扎,大多未能在 AIME 2024 上超过 30 分。
为破除大规模强化学习的迷障,研究团队提出了 DAPO 算法。在 Qwen2.5-32B 模型上使用 DAPO 训练后,在 AIME 2024 测试集上取得了 50 分的优异成绩,超越了 DeepSeek-R1-Zero-Qwen-32B,达到了新的 SOTA 结果,所花费的训练步数只有一半。
仅需一半的训练步数,DAPO的表现便在AIME 2024上超越了前SOTA模型DeepSeek-R1-Zero-Qwen-32B
前置知识:大语言模型 RL 的演进
近端策略优化算法(PPO)
近端策略优化算法(PPO)引入了有裁剪的替代目标函数,应用置信域算法的思想,通过限制策略的更新范围提高了训练时的稳定性和样本效率。此外,PPO 还使用广义优势估计(Generalized Advantage Estimation, GAE)对优势函数进行估计,从而显式地控制偏差(Bias)和方差(Variance)。
分组相对策略优化(GRPO)
分组相对策略优化算法(GRPO)是 PPO 算法变体,其主要改进在于采用了不同于 GAE 的优势函数估计方法。GRPO 通过对同一个问题多次采样,将归一化奖励作为优势函数的估计。
KL散度并非必要
PPO 等强化学习算法常引入 KL 散度(Kullback–Leibler Divergence)用于防止训练过程中策略因更新幅度过大而崩溃。研究团队发现,在长思维链推理场景下,模型分布将会与初始模型有显著差异,因而不需要使用 KL 散度加以限制。
规则奖励模型
由于基于神经网络的奖励模型常常面临奖励欺骗(Reward Hacking)的问题,研究团队直接使用基于规则判断的奖励模型。这一做法在自动化定理证明、编程、数学竞赛等场景下都被证明有良好效果。
DAPO 算法:四大核心技术
研究团队通过引入四项关键技术(Clip-Higher、Dynamic Sampling、Token-Level Policy Gradient Loss、Overlong Reward Shaping)提出了 DAPO 算法。DAPO 的目标函数如下:
算法细节
Clip-Higher:打破熵坍缩困境
在人工智能领域,模型训练中的熵崩塌现象一直是个棘手问题。研究人员在早期实验中,使用朴素 PPO 或 GRPO 算法时发现,随着训练推进,策略的熵值迅速降低,部分采样响应近乎相同,这严重限制了模型的探索能力,导致采样空间崩塌。
传统的 PPO 算法引入重要性采样比 (Importance Sampling Ratio)裁剪,以限制置信域、提高强化学习的稳定性,但其中的上界裁剪却无意中限制了策略的探索性,让模型更容易增加“利用型 token”的概率,却难以提升“探索型 token”的概率。
为解决这一问题,DAPO 提出了提高裁剪上界(Clip-Higher)策略。该策略将裁剪范围解耦为下界裁剪范围
和上裁剪范围
,通过增大
为概率较低的“探索型 token”提供更大的提升空间,同时保持
相对较小,避免抑制这些 token 的概率。从实验效果来看,这一调整有效提升了策略的熵值,促进了更多样化样本的生成,成功打破了熵崩塌的困境。
Dynamic Sampling:训练效率飙升
现有的强化学习算法在某些提示的准确率达到 1 时,会出现梯度衰减的现象。以 GRPO 算法为例,若某个分组的所有输出都正确且获得相同奖励 1,那么该组的优势估计为 0。优势估计为 0 会导致策略更新时没有梯度,降低样本效率。并且从实验上看,准确率为 1 的样本数量在训练过程中持续增加,使得每批中有效样本数量不断减少,造成梯度方差变大,削弱模型训练的梯度信号。
为解决这个问题,研究团队提出动态采样机制(Dynamic Sampling):进行过采样(over-sample)并过滤掉准确率为 1 和 0 的样本。在训练前持续采样,直到批次中充满准确率既不是 0 也不是 1 的样本,这样能让批次中的样本数量一致,并且都保持有效梯度。这种策略有望提升模型训练的效率和稳定性。
Token-Level Policy Gradient Loss:精准优化长序列
原始的 GRPO 算法采用样本级损失计算方法,即先对每个样本内的 token 损失求平均,再汇总所有样本的损失,且在最终损失计算中每个样本权重相等。但在长思维链强化学习场景里,这种方法存在问题。
由于所有样本权重相同,长响应(含更多 token)中的 token 对总损失的贡献可能过低。这会产生两个不良影响:一是阻碍模型学习高质量长样本中的推理相关模式;二是无法有效惩罚过长样本中的低质量模式(如乱码和重复词),导致熵和响应长度不合理增加。
为解决这些局限,在长思维链强化学习场景中引入了 token 级策略梯度损失(Token-Level Policy Gradient Loss)。在这种设定下,长序列相比短序列对整体梯度更新影响更大。并且从单个 token 角度考虑,无论其所在响应长度如何,特定生成模式若影响奖励增减,都会被施以同等的激励或抑制信号。
Overlong Reward Shaping:消除奖励噪声
在强化学习训练中,通常会设定生成的最大长度,并对过长样本进行截断。研究发现,对截断样本的不当奖励塑造会引入奖励噪声,严重干扰训练过程。
默认情况下,算法会给截断样本分配惩罚性奖励,但这可能将合理的推理过程误罚,从而给训练带来噪声,使模型对推理过程的有效性判断产生混淆。
为探究奖励噪声的影响,先采用了过滤超长样本(Overlong Filtering)策略,屏蔽截断样本的损失。结果表明,该方法显著稳定了训练并提升了性能。
此外,研究团队还提出了软超长惩罚机制(Soft Overlong Punishment)。当响应长度超过预设最大值时,会定义一个惩罚区间。在该区间内,响应越长,惩罚越大。此惩罚会加到原有的基于规则的正确性奖励上,以此告知模型避免生成过长响应。
实验结果
基于 verl 框架,DAPO 在数学推理任务上进行了一系列实验,以 GRPO 作为基线方法。
在 AIME 2024 测试中,Qwen2.5-32B Base 模型经过 DAPO 的训练表现出超强的推理能力,准确率从接近 0% 上升到 50%,仅用 50% 的训练步数超越了 DeepSeek-R1-Zero-Qwen-32B。
实验结果显示,几项关键技术都对算法性能带来了有不同程度的提升。
训练动态
大语言模型的强化学习不仅是前沿研究方向,也是复杂的系统工程挑战,各子系统相互依存,单个子系统的修改会在整个系统中传播,导致难以预料的结果。初始条件的微小变化也可能被放大,给研究者带来难题。因此,监测关键中间结果对发现问题和优化系统至关重要。
生成响应长度与训练稳定性和性能相关。长度增加为模型提供更大探索空间,利于复杂推理行为的学习强化,但训练中长度并非持续增长,也会停滞或下降。通常结合长度和验证准确率判断实验是否恶化。训练期间奖励动态一直是强化学习的关键监测指标。多数实验中,奖励增长趋势相对稳定,但训练集最终奖励与验证集准确率相关性低,可能出现过拟合。行动者模型的熵和生成概率与模型探索能力相关。熵需维持在合适范围,熵过低表明概率分布过窄,探索能力不足;过高则可能导致过度探索,出现乱码和重复生成问题。生成概率则相反。DAPO 通过 Clip-Higher 策略有效解决了熵崩塌问题,后续实验发现保持熵的缓慢上升趋势有助于提升模型性能。下图展示了 DAPO 的响应长度、奖励分数、生成熵和平均概率的指标曲线,这些曲线体现了强化学习训练的动态变化,是识别潜在问题的重要监测指标。
案例分析
在强化学习的训练过程中,研究团队观察到一个有趣的现象:策略模型的推理模式会随着时间动态演变。具体而言,强化学习算法不仅会强化那些有助于正确解决问题的现有推理模式,还会逐渐催生原本不存在的全新推理模式。这一发现揭示了强化学习算法的适应性和探索能力,也为理解模型的学习机制提供了新的视角。
例如,在模型训练的早期阶段,几乎不会出现对先前推理步骤进行检查和反思的情况。然而,随着训练的推进,模型开始展现出明显的反思和回溯行为。这一观察结果为进一步探索和解释强化学习中推理能力的出现提供了思路,后续研究可围绕此展开。
AIR长期招聘人工智能领域优秀科研人员
来源:清华大学智能产业研究院