摘要:近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。
近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。
Light-R1-32B:从零复现满血版 DeepSeek-R1;Light-R1-32B-MATH:在 DeepSeek-R1-Distill-Qwen-32B 基础上,只需 3K 数据接近满血版 DeepSeek-R1;Light-R1-14B-MATHRL:首次在 14B 模型上复现强化学习效果,表现超过 32B 的 DeepSeek-R1-Distill-Qwen-32B 模型。接下来,本文就具体介绍下我们的工作内容。
项目地址:
模型地址:
数据开源地址:
尽管已经有许多开源工作尝试在 72B 或更低的模型上复现 DeepSeek-R1,但在艰难的数学竞赛 AIME24 上没有一个能取得与 DeepSeek-R1-Distill-Qwen-32B 的得分 72.6 类似的表现(我们的工作在 QWQ-32B发布之前)。
此外,本文将介绍 Light-R1-14B-MathRL,这是第一个在已经经过长 COT 微调的模型上成功进行 RL 尝试的开源项目。之前的工作已经成功地在基础模型(通常名字中带有 -zero)或 1.5B 模型上训练 RL(响应长度有趣地先减少然后增加),或者在 QwQ-32B 上进行训练(假设计算量非常大)。
Light-R1-MathRL-14B 标志着在低成本复现 DeepSeek-R1 方面迈出了重要一步。我们终于在 RL 训练期间看到了预期的行为:响应长度和验证分数同时增加。源自 DeepSeek-R1-Distill-Qwen-14B,Light-R1-MathRL-14B 经过我们的长 COT RL 后训练,达到了 14B-Math 模型的新状态:在 AIME 24 和 25 上分别取得了 74.0 和 60.2 的成绩。后期我们将发布这个模型,并将继续完善我们的长 COT RL 后训练,直到我们发布 Light-R1 系列技术报告。
一、Light-R1-32B:从零复现满血版 DeepSeek-R1在 Light-R1-32B 上,我们采用了 SFT 和 DPO 的课程学习方法,在 Light-R1-14B-MATHRL 上,我们将 DPO 替换为 GRPO。
1.1 MATH 数据源
训练数据来自公开数学数据集,包括、、、、、、和 AIME(截至 2023 年)。我们根据常见的推理基准(例如 AIME24/25、MATH-500 和 GPQA Diamond)对问题进行了净化。
1.2 多阶段 SFT 和 DPO
我们收集了 DeepSeek-R1 对这些问题的回答,并根据通过采样 评定的验证和难度级别对它们进行了筛选,形成了SFT stage1 的 76k 数据集。
在 SFT stage1 之后,为 SFT stage2 构建了一个更困难的集合,该集合主要从 76k 数据集中筛选出来,包含 3k 数据。
该 stage2 数据可以将 DeepSeek-R1-Distill-Qwen-32B 在 AIME 24/25 上从 72.6/54.9 提升至 0.779/0.675。然后,我们在 SFT stage2 之后对 Light-R1-SFT-stage2 的回答进行采样,为每个问题筛选出正确和错误的回答,并根据验证结果和 DeepSeek-R1 的回答构建 DPO 对。
DPO(或 中以序列并行的方式在 SFT stage2 之上执行。
上述训练步骤相当快,预计在 12 台 H800 机器上不到 6 小时即可完成,因此估计费用为 1000 美元。
1.3 模型合并
最后,我们合并了 SFT-stage2、DPO 和另一个 AIME24 得分为 74.7 的 DPO 版本的模型。两个 DPO 版本的不同之处在于,其中一个数据在被拒绝的响应中跳过了特殊标记。有趣的是,最终版本也表现出了改进。
二、Light-R1-14B-MATHRL:强化学习在 14B 上的效果复现目前开源项目中,能够完全成功复现强化学习效果的主要是 DeepScaleR-1.5B-Preview,但是这只是一个 1.5B 大小的模型,在更大的模型上,目前很少有。
我们在 14B 模型上进行了大规模强化学习训练,在 RL 训练过程中,我们终于观察到了预期的现象:响应长度与验证分数同步提升。
而随着响应长度增加,模型效果不断提升,最终 Light-R1-14B-MATHRL 在 AIME24 得分为 74.0,在 AIME25 上得分为 60.2,超过了 DeepSeek-R1-Distill-Qwen-32B 的 72.6/54.9 ,取得了非常显著的提升。
目前,我们在 32B 上的强化也在进行中,等有结论,再分享给各位知友。
三、泛化性虽然我们只训了 MATH 数据,但是模型在其它能力上仍然表现出了很强的泛化性。7B 和 14B 在 GPQA 评测上均超过了 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-14B。
ModelGPQADeepSeek-R1-Distill-Qwen-7B49.1DeepSeek-R1-Distill-Qwen-14B59.1Light-R1-7B-MATH49.4Light-R1-14B-MATHRL61.7四、数据净化我们仔细评估了几个开源数据集的数据污染。虽然,但训练后与基准进行比较是不可接受的。MATH-500 在某种程度上受到了损害,有数十个问题完全相同或只有数字发生了变化。AIME 24 和 25 保持不变,但当我们整合到 2023 年的 AIME 数据时,我们必须特别注意。Light-R1 通过精确匹配或 N-gram 匹配进行了彻底的净化。
模型、数据、代码已经全部开源,技术报告正在进行中。
参考来源:鼠meme