DeepSeek-R1论文解读

摘要：介绍了我们第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，在没有监督微调（SFT）作为初始步骤的情况下表现出显著的推理能力。通过RL，DeepSeek-R1-

摘要

介绍了我们第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，在没有监督微调（SFT）作为初始步骤的情况下表现出显著的推理能力。通过RL，DeepSeek-R1-Zero自然地涌现出了许多强大而有趣的推理行为。然而，它遇到了诸如可读性差、语言混合等问题。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，该模型在RL之前包含了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持社区研究，我们将DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1中蒸馏出的6个密集模型（1.5B、7B、8B、14B、32B、70B）开源。

1.Introduction

近年来，大型语言模型（LLMs）经历了快速迭代和进化逐步缩小了与通用人工智能（AGI）的差距。最近，post-training已成为完整训练pipeline的重要组成部分。它已被证明可以提高推理任务的准确性、符合社会价值观，并适应用户偏好，同时相对于预训练需要较少的计算资源。在推理能力方面，OpenAI 的o1系列模型是第一个通过增加思维链长度来引入推理阶段scaling law的方法。这种方法已经在数学、编码和科学推理等各种推理任务中取得了显著改进。然而，在test-time scaling的有效性上仍是一个悬而未决的问题。一些先前的工作已经探索了各种方法，包括基于过程的奖励模型以及搜索算法如蒙特卡罗树搜索和束搜索。但是，这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。

本文首次尝试完全使用强化学习 (RL) 来提高语言模型的推理能力。我们的目标是探索大型语言模型在没有任何监督数据的情况下激发推理能力的潜力，重点在于通过纯粹的RL过程实现其自我进化。具体而言，我们以 DeepSeek-V3-Base 作为基础模型，并采用 GRPO作为RL框架来提升模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。经过数千次 RL steps后，DeepSeek-R1-Zero 在推理基准测试中表现出色。例如，在AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%，并通过多数投票进一步提高到 86.7%，与 OpenAI-o1-0912 的表现相当。

然而，DeepSeek-R1-Zero 遇到了诸如可读性差、语言混合等问题。为了解决这些问题并进一步提高推理性能，我们引入了 DeepSeek-R1，它结合了一定数量的冷启动数据和多阶段训练pipeline。具体来说，我们首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型。然后，我们像 DeepSeek-R1-Zero 一样进行面向推理的强化学习。在RL训练接近收敛时，我们在RL的checkpoint上通过拒绝采样构建新的SFT数据，并将其与来自 DeepSeek-V3 的监督数据相结合，这些数据涉及写作、事实问答和自我认知等领域，然后重新训练 DeepSeek-V3-Base 模型。经过新数据的微调后，checkpoint会经历额外的 RL过程，同时考虑所有场景中的指令。完成这些步骤后，我们得到了一个称为 DeepSeek-R1 的checkpoint，其性能达到了 OpenAI-o1-1217 的水平。

我们进一步探索从DeepSeek-R1到更小的密集模型的蒸馏。使用Qwen2.5-32B（Qwen，2024b）作为基础模型，直接从DeepSeek-R1进行蒸馏优于在它上面应用RL。这表明由更大的基础模型发现的推理模式对于提高推理能力至关重要。我们将蒸馏后的Qwen和Llama系列开源。值得注意的是，我们的蒸馏14B模型远远超过了最先进的开源QwQ-32B-Preview，而蒸馏的32B和70B模型在密集模型中创造了新的基准记录。

1.1 主要贡献

Post-Training：基于base模型的大规模强化学习

我们直接将强化学习（RL）应用到base模型中，而无需依赖监督微调（SFT）作为预处理步骤。这种方法允许模型探索解决复杂问题的思维链（CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链的能力，标志着研究社区的一个重要里程碑。值得注意的是，这是第一个公开的研究，证明LLMs的推理能力可以通过纯粹的RL激励，而不必使用SFT来验证。这一突破为该领域的未来进步铺平了道路。我们介绍了开发DeepSeek-R1的流程。该流程包含两个RL阶段，旨在发现改进的推理模式并符合人类偏好，以及作为模型推理和非推理能力种子的两个SFT阶段。通过创建更好的模型，我们相信该流程将对行业有益。

蒸馏：小模型也可以很强大

我们证明，大型模型的推理模式可以被蒸馏到小模型中，与通过RL在小模型上发现的推理模式相比，性能更好。开源DeepSeek-R1及其API将使研究界在未来受益于更好地蒸馏更小的模型。我们使用DeepSeek-R1生成的推理数据，对研究界广泛使用的几种密集模型进行了微调。评估结果表明，蒸馏后的较小密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在AIME 2024上取得了55.5％的成绩，超过了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在AIME 2024上获得了72.6％的成绩，在MATH-500上获得了94.3％的成绩，并且在LiveCodeBench上获得了57.2％的成绩。这些结果显著优于之前的开源模型，并与o1-mini相当。我们基于Qwen2.5和Llama3系列向社区开放了1.5B、7B、8B、14B、32B和70B的模型权重。1.2 评估结果推理任务：（1）DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数，略高于 OpenAI-o1-1217。在 MATH-500 上，它获得了令人印象深刻的 97.3% 的分数，与 OpenAI-o1-1217 并驾齐驱，并显著优于其他模型。（2）在编码相关任务上，DeepSeek-R1 在代码竞赛任务中表现出专家水平，在 Codeforces 中获得 2,029 棋分，超越了 96.3% 的人类参赛者。对于工程相关任务，DeepSeek-R1 略胜于 DeepSeek-V3，这可以帮助开发人员完成现实世界中的任务。知识：在MMLU、MMLU-Pro和GPQA Diamond等基准上，DeepSeek-R1取得了卓越的成绩，显著优于DeepSeek-V3，在MMLU上的得分为90.8%，在MMLU-Pro上的得分为84.0%，在GPQA Diamond上的得分为71.5%。虽然其性能略低于OpenAI-o1-1217在这些基准上的表现，但DeepSeek-R1超越了其他闭源模型，展示了它在教育任务中的竞争力。在事实基准SimpleQA上，DeepSeek-R1也超过了DeepSeek-V3，显示了它处理基于事实的查询的能力。类似的趋势也在OpenAI-o1超过4o这个基准上观察到。其他：DeepSeek-R1 在创意写作、通用问答、编辑、总结等广泛任务中也表现出色。它在AlpacaEval 2.0上实现了令人印象深刻的长度控制胜率87.6%，在Are-naHard上取得了92.3%的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务中表现突出，在长上下文基准测试中大幅超越了DeepSeek-V3。2. 主要方法

2.1. 概述

以往的工作主要依赖大量监督数据来提升模型性能。在本研究中，我们证明了通过大规模强化学习（RL）可以显著提高推理能力，即使不使用监督微调 (SFT) 作为冷启动。此外，加入少量的冷启动数据可以进一步增强性能。在接下来的部分中，我们将介绍：1) DeepSeek-R1-Zero，它直接将 RL 应用于基础模型而无需任何SFT数据；2) DeepSeek-R1，基于数千个长思维链样本 (CoT) 进行微调的Checkpoint开始应用 RL获得的模型。3) 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。

2.2. DeepSeek-R1-Zero：基于base模型的强化学习

强化学习在推理任务中已经证明了显著的有效性，这由我们之前的工作所证实。然而，这些工作严重依赖于监督数据，而收集这些数据需要大量时间。在本节中，我们将探索LLMs开发无需任何监督数据的推理能力的潜力，重点是通过纯粹的强化学习过程实现其自我进化。我们首先简要概述我们的强化学习算法，然后展示一些令人兴奋的结果，并希望为社区提供有价值的见解。

2.2.1. 强化学习算法

Group Relative Policy Optimization：为了节省RL的训练成本，我们采用GRPO算法，它放弃了通常与策略模型大小相同的评论模型，并且从组得分中估计基线。具体来说，对于每个问题q，GRPO从旧策略πθold中采样一组输出{o1, o2, · · ·, oG}，然后通过最大化以下目标来优化策略模型πθ：

其中，ε和β是超参数，Ai是使用一组奖励{r1, r2,..., rG}计算得出的优势，这些奖励对应于每个组内的输出：

2.2.2 Reward建模

Reward是训练信号的来源，决定了RL优化的方向。为了训练DeepSeek-R1-Zero，我们采用基于规则的奖励系统（rule-based reward system），主要由两种类型的奖励组成：

准确性奖励：准确性奖励模型评估响应是否正确。例如，在数学问题具有确定结果的情况下，要求模型以指定格式（如在框内）提供最终答案，从而实现可靠的基于规则的验证。同样地，对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。格式奖励：除了准确性奖励模型外，我们还采用格式奖励模型来强制模型将其思考过程放在“”和“”标签之间。

我们没有在开发DeepSeek-R1-Zero时应用基于过程的PRM模型或者神经网络奖励模型，因为我们发现，在大规模强化学习过程中，神经网络奖励模型可能会遭受reward hacking，并且重新训练奖励模型需要额外的资源，这会使得整个训练流程变得复杂。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero，我们首先设计了一个简单的模板来指导base模型遵循我们的指定指令。如表1所示，这个模板要求DeepSeek-R1-Zero先产生一个推理过程，然后给出最终答案。我们故意将约束限制在这一结构格式上，避免任何内容特定的偏见——例如强制进行反思性推理或促进特定的问题解决策略——以确保我们可以准确观察模型在强化学习过程中自然的演化过程。

2.2.4 DeepSeek-R1-Zero的效果、自我进化过程和Aha时刻

DeepSeek-R1-Zero的性能图2描绘了DeepSeek-R1-Zero在AIME 2024基准上的强化学习训练过程中的性能曲线。如图所示，随着RL训练的推进，DeepSeek-R1-Zero表现出稳定的持续增强性能。值得注意的是，在AIME 2024上平均pass@1得分显著增加，从最初的15.6％跃升至令人印象深刻的71.0％，达到了与OpenAI-o1-0912相当的表现水平。这一显着改善突出了我们的RL算法随着时间推移优化模型性能的有效性。

DeepSeek-R1-Zero在无需任何监督微调数据的情况下，实现了强大的推理能力。这是一个值得注意的成就，因为它强调了模型仅通过RL就能有效学习和泛化的潜力。此外，通过应用多数投票技术可以进一步增强DeepSeek-R1-Zero的表现。例如，在对AIME基准进行多数投票时，DeepSeek-R1-Zero的表现从71.0％提高到86.7％，从而超过了OpenAI-o1-0912的表现。DeepSeek-R1-Zero能够在有或没有多数投票的情况下实现这种竞争表现的能力，突显了其强大的基础能力和在推理任务中取得进一步进展的潜力。

DeepSeek-R1-Zero的自我进化过程 RL如何驱动模型自主提高其推理能力的一个令人着迷的演示。通过直接从base模型开始进行RL，我们可以密切监控模型的发展进程，而不受监督微调阶段的影响。这种方法为我们提供了清晰地了解模型随时间推移是如何发展的视角，特别是在处理复杂推理任务的能力方面。

在训练过程中，这种改进不是外部调整的结果，而是模型内在发展的结果。DeepSeek-R1-Zero通过利用扩展的测试时间计算自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌，使模型能够更深入地探索和细化其思维过程。

这种自我进化最显著的一个方面是，随着测试时间的增加，复杂的行为开始出现。例如，模型会重新审视和评估其先前步骤的行为——即反射行为——以及探索解决问题的不同方法的行为都会自发地产生。这些行为并不是明确编程的结果，而是作为模型与强化学习环境交互的结果而产生的。这种自发的发展大大提高了DeepSeek-R1-Zero的推理能力，使其能够更高效、准确地解决更具挑战性的任务。

DeepSeek-R1-Zero的Aha Moment 在训练DeepSeek-R1-Zero的过程中，观察到一个特别有趣的现象——“Aha Moment”。如表3所示，在模型的一个中间版本中发生了这个时刻。在这个阶段，DeepSeek-R1-Zero通过重新评估其初始方法来学会为一个问题分配更多思考时间。这种行为不仅证明了模型推理能力的增长，而且说明了强化学习是如何产生意想不到和复杂的成果的。

这个时刻不仅是模型的“aha moment”，也是观察其行为的研究人员的“aha moment”。它突显了强化学习的力量和美丽：我们不是明确地教给模型如何解决问题，而是简单地为其提供正确的激励措施，并使其自主开发高级问题解决策略。“aha moment”有力地提醒人们，RL在解锁人工智能系统中新智能水平方面的潜力，为未来更自主、适应性更强的模型铺平道路。

DeepSeek-R1-Zero 的缺点尽管 DeepSeek-R1-Zero 展示了强大的推理能力，并且能够自主开发出意想不到的强大推理行为，但它面临着几个问题。例如，DeepSeek-R1-Zero 在可读性和语言混合方面存在困难。为了使推理过程更易于阅读并将其与开放社区共享，我们探索了一种利用RL与冷启动数据的方法—DeepSeek-R1。

2.3. DeepSeek-R1：冷启动的强化学习

受DeepSeek-R1-Zero的出色结果启发，两个自然的问题出现了：1）通过引入少量高质量数据作为冷启动，推理性能是否可以进一步提高或收敛速度加快？2）如何训练一个用户友好的模型，不仅产生清晰连贯的思想链（CoT），而且表现出强大的通用能力？为了解决这些问题，我们设计了一个流程来训练DeepSeek-R1。该流程主要由四个阶段组成，如下所示。

2.3.1 冷启动

与DeepSeek-R1-Zero不同，为防止RL从base模型开始训练存在的早期不稳定，对于DeepSeek-R1我们构建并收集少量长CoT数据以微调模型作为初始RL actor。为了收集此类数据，我们探索了几种方法：例如使用少样本提示和长CoT，直接提示模型生成详细的答案，并进行反思和验证，将DeepSeek-R1-Zero输出整理成可读格式，并通过人工标注进行后处理来细化结果。

在本工作中，我们收集了数千个冷启动数据来微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比，冷启动数据的优势，主要包括：

可读性：DeepSeek-R1-Zero的一个关键限制是其内容往往不适合阅读。响应可能混合多种语言或缺乏markdown格式，以突出显示用户的答案。相比之下，在为DeepSeek-R1创建冷启动数据时，我们设计了一个可读的模式，包括每个响应结束处的摘要，并筛选出不友好的响应。我们将输出格式定义为：|special_token||special_token|，其中reasoning process是对查询的CoT，而summary用于概括推理结果。潜力：通过精心设计冷启动数据的模式，我们观察到比DeepSeek-R1-Zero更好的性能。我们认为迭代训练是推理模型的一个更好方法。

2.3.2. 基于推理的强化学习

在对冷启动数据进行微调后，我们应用了与DeepSeek-R1-Zero相同的大型强化学习训练过程。这一阶段的重点是增强模型的推理能力，特别是在编码、数学、科学和逻辑推理等需要大量推理的任务中，这些任务涉及定义明确且有清晰解决方案的问题。在训练过程中，我们观察到CoT经常出现语言混合现象，尤其是在RL提示涉及到多种语言时。为了解决语言混合问题，我们在RL训练期间引入了一种语言一致性奖励，该奖励计算的是CoT中的目标语言单词的比例。虽然消融实验显示这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使其更易于阅读。最后，我们将推理任务的准确性与语言一致性的奖励直接相加，形成最终的奖励。然后，我们对经过微调的模型进行强化学习（RL）训练，直到它在推理任务上收敛为止。

2.3.3. 拒绝采样和监督微调

当推理导向的RL收敛时，我们利用产生的checkpoint来收集后续轮次的SFT数据。与主要关注推理的初始冷启动数据不同，这一阶段包含了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说，我们会生成数据并按照以下方式对模型进行微调。

推理数据我们通过从上述RL训练的checkpoint执行拒绝采样来整理推理提示并生成推理轨迹。在上一阶段，我们只使用了基于规则的奖励模型可以评估的数据。然而，在这一阶段，我们通过将真实值和模型预测输入DeepSeek-V3来进行判断，从而扩展了数据集，并且其中一些使用了一种生成性奖励模型。此外，由于模型输出有时是混乱的并且难以阅读，因此我们已经过滤掉了混合语言、长段落和代码块的思考链。对于每个提示，我们对多个响应进行了抽样，并仅保留正确的响应。总共，我们收集了大约60万个与推理相关的训练样本。非推理数据对于写作、事实问答、自我认知和翻译等非推理数据，我们复用DeepSeek-V3的SFT数据集的部分。对于某些非推理任务，在回答问题之前，通过提示调用DeepSeek-V3生成潜在的思维链。然而，对于更简单的查询，如“你好”，我们没有提供CoT作为响应。最后，我们收集了大约20万个与推理无关的训练样本。

我们使用上述约 800,000 个样本的精选数据集对 DeepSeek-V3-Base 进行了两个阶段的微调。

2.3.4 所有场景的强化学习

为了进一步使模型与人类偏好保持一致，我们实施了一个第二阶段的强化学习过程，旨在提高模型的帮助性和无害性的同时改进其推理能力。具体来说，我们使用奖励信号和各种提示分布相结合的方式对模型进行训练。对于推理数据，我们遵循DeepSeek-R1-Zero中概述的方法论，利用基于规则的奖励来引导数学、代码和逻辑推理领域的学习过程。对于一般的数据，我们采用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们在DeepSeek-V3流程的基础上构建，并采用了类似的偏好配对和训练提示分配方式。对于帮助性，我们仅关注最终总结，确保评估强调响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和总结，以识别并缓解生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，通过结合奖励信号和多样化的数据分布，我们可以训练出一个在推理方面表现出色且优先考虑帮助性和无害性的模型。

2.4. 蒸馏：为小模型赋予推理能力

为了装备更高效的小模型，如DeekSeek-R1所具备的推理能力，我们直接对开源模型进行微调（Qwen、Llama），使用了带有DeepSeek-R1整理的80万个样本。我们的研究结果表明，这种简单的蒸馏方法显著提高了小模型的推理能力。我们在这里使用的基线模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为它的推理能力略优于Llama-3.1。

对于蒸馏模型，我们只应用SFT并不包括RL阶段，尽管纳入RL可以显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性，将探索RL阶段留给更广泛的科研界。

3. 实验

Benchmarks 我们在MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU，IFEval，FRAMES，GPQA Diamond，SimpleQA，C-SimpleQA和SWE-Bench Verified上评估模型。Aider，LiveCodeBench，Codeforces，中国高中数学奥林匹克竞赛和美国数学邀请赛2024。除了标准基准外，我们还使用LLMs作为裁判对我们的模型进行开放生成任务的评估。具体来说，我们遵循AlpacaEval 2.0和Arena-Hard的原始配置，其中利用GPT-4-Turbo-1106作为裁判进行两两比较。在这里，我们只提供最终总结以避免长度偏差。对于蒸馏模型，我们在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上报告了代表性结果。

Evaluation Prompts 在DeepSeek-V3的设置之后，使用simple-evals框架中的提示对标准基准进行评估，如MMLU、DROP、GPQA Diamond和SimpleQA。对于MMLU-Redux，我们采用Zero-Eval提示格式在零样本设置中。就MMLU-Pro、C-Eval和CLUE-WSC而言，由于原始提示是少样本的，我们将提示稍作修改以适应零样本设置。在少样本情况下，CoT可能会损害DeepSeek-R1的表现。其他数据集遵循其原始评估协议，并提供创建者提供的默认提示。对于代码和数学基准，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。LiveCodeBench上的模型性能通过CoT格式进行评估，收集的数据时间为2024年8月至2025年1月。Codeforces数据集通过从10个Div.2竞赛中提取问题并结合专家设计的测试用例来进行评估，然后计算出预期评分和参赛者的百分比。SWE-Bench验证结果通过无代理框架(Xia等，2024)获得。AIDER相关的基准测量使用“差异”格式。DeepSeek-R1输出每个基准的最大值为32,768令牌。

Baselines 我们对几个强大的基准进行了全面评估，包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API具有挑战性，我们根据官方报告汇报了其性能。对于蒸馏模型，我们也比较了开源模型QwQ-32B-Preview。

生成设置对于我们的所有模型，最大生成长度被设定为32,768个令牌。对于需要采样的基准测试，我们使用温度值0.6、top-p值0.95，并且每查询生成64个响应以估计pass@1。

3.1. DeepSeek-R1评估

对于教育导向的知识基准，如MMLU、MMLU-Pro和GPQA-Diamond，DeepSeek-R1相较于DeepSeek-V3表现出更优越的性能。这种改进主要归功于STEM相关问题上的准确度提升，在大规模强化学习（RL）的帮助下取得了显著收益。此外，DeepSeek-R1在FRAMES上表现优异，这是一个依赖长上下文的问答任务，展示了其强大的文档分析能力。这突显了推理模型在人工智能驱动下的潜力。

DeepSeek-R1在事实基准SimpleQA上优于DeepSeek-V3，展示了其处理基于事实查询的能力。类似的趋势也出现在OpenAI-o1超越GPT-4o的基准中。然而，在中文SimpleQA基准上，DeepSeek-R1的表现不如DeepSeek-V3，主要是因为安全RL后拒绝回答某些查询的倾向。如果没有安全RL，DeepSeek-R1可以达到超过70%的准确率。

DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的成果，IF-Eval 是一个用于评估模型遵循格式指令能力的基准。这些改进可以归因于在监督微调 (SFT) 和 RL 训练的最后阶段纳入了指令跟随数据。此外，在 AlpacaEval2.0 和 ArenaHard 上观察到显著的表现，这表明 DeepSeek-R1 在写作任务和开放域问答方面的优势。它对 DeepSeek-V3 的显着超越凸显了大规模 RL 的泛化优势，不仅提高了推理能力，还改善了跨不同领域的性能。此外，DeepSeek-R1 生成的摘要长度简洁明了，ArenaHard 平均为 689 个令牌，AlpacaEval 2.0 平均为 2,218 个字符。这表明 DeepSeek-R1 避免了在基于 GPT 的评估中引入长度偏差，进一步巩固了其在多个任务上的鲁棒性。

在数学任务上，DeepSeek-R1的表现与OpenAI-o1-1217相当，并且远远超过其他模型。在编码算法任务中也观察到类似的趋势，例如LiveCodeBench和Codeforces，其中以推理为重点的模型主导了这些基准测试。在面向工程的编码任务中，OpenAI-o1-1217在Aider上的表现优于DeepSeek-R1，但在SWE Verified上实现了可比性能。我们相信DeepSeek-R1的性能会在下个版本中有所提升，因为目前相关RL训练数据量还非常有限。

3.2. 模型蒸馏评估

如表5所示，通过简单蒸馏DeepSeek-R1的输出，可以高效地得到DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，以下简称为DeepSeek-R1-7B），其在所有评估指标上均优于非推理模型GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上都超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。这些结果表明蒸馏的强大潜力。此外，我们发现将RL应用到这些蒸馏模型可以获得进一步的收益。我们认为这值得进一步探索，因此这里只呈现了简单的SFT蒸馏模型的结果。

4. 讨论4.1. 模型蒸馏 v.s. 强化学习

在第3.2节中，我们可以看到通过蒸馏DeepSeek-R1，小模型可以取得令人印象深刻的成果。然而，仍然有一个问题：该模型是否可以通过论文中讨论的大规模RL训练而无需蒸馏来实现可比的性能？

为回答这个问题，我们在Qwen-32B-Base上使用数学、代码和STEM数据进行了大规模的RL训练，经过超过10K步的训练，产生了DeepSeek-R1-Zero-Qwen-32B。实验结果如图6所示，表明32B Base模型在大规模RL训练，性能与QwQ-32B-Preview相当。然而，从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准上都明显优于DeepSeek-R1-Zero-Qwen-32B。因此，我们可以得出两个结论：第一，将更强大的模型蒸馏成较小的模型效果很好，但本文中提到的依赖于大规模RL的小模型需要巨大的计算能力，并且效果可能没有比直接蒸馏的好（简单理解为：小的base模型直接做大规模的强化学习其效果可能不会比直接蒸馏来的好）。第二，尽管蒸馏策略既经济又有效，但是超越智能边界仍需要更强大的Base模型和更大规模的强化学习。

4.2. 失败的尝试

在开发DeepSeek-R1的早期阶段，我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型（PRM） PRM是一种合理的引导方法，可以指导模型采用更好的方式来解决推理任务。然而，在实践中，PRM存在三个主要的局限性，这些局限性可能会阻碍其最终的成功。首先，一般而言，定义一个精细粒度的步骤是具有挑战性的。其次，确定当前中间步骤是否正确是一个具有挑战性的任务。使用模型进行自动注释可能无法获得令人满意的结果，而手动注释不利于规模扩展。第三，一旦引入基于模型的PRM，它不可避免地会导致奖励作弊，并且重新训练奖励模型需要额外的资源，并且会复杂化整个训练流程。总之，虽然PRM在重排由模型生成的前N个响应或辅助引导搜索方面表现出良好的能力，但在我们的实验中，与大规模强化学习过程中引入的附加计算开销相比，它的优势有限。

蒙特卡罗树搜索（MCTS）受AlphaGo和AlphaZero的启发，我们探索使用蒙特卡罗树搜索（MCTS）来增强推理阶段的计算可扩展性。这种方法涉及将答案分解成更小的部分，以允许模型系统地探索解决方案空间。为了促进这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。在训练过程中，首先使用收集到的提示通过由预训练的价值模型引导的MCTS找到答案。随后，我们使用产生的问题-答案对来训练演员模型和价值模型，并迭代改进该过程。

然而，这种方法在扩大训练规模时遇到了几个挑战。首先，与象棋不同，在象棋中搜索空间相对明确，而token生成则呈现指数级更大的搜索空间。为了解决这个问题，我们对每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优解。其次，价值模型直接影响生成的质量，因为它指导了搜索过程的每一步。训练一个精细的价值模型本质上是困难的，这使得模型难以迭代改进。虽然AlphaGo的核心成功依赖于训练一个价值模型以逐步提升其性能，但由于token生成的复杂性，这一原则证明很难复制到我们的设置中。

总之，虽然 MCTS 与预先训练的价值模型结合使用时可以提高推理过程中的性能，但通过自我搜索迭代地提升模型性能仍然是一项重大挑战。

5. Conclusion, Limitation, and FutureWork

在本文中，我们分享了通过强化学习提高模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯RL方法，无需依赖冷启动数据，在各种任务上都取得了出色表现。DeepSeek-R1更加强大，利用冷启动数据和迭代RL精调相结合。最终，DeepSeek-R1 在一系列任务上的表现与 OpenAI-o1-1217 相当。

我们进一步探索蒸馏推理能力到小模型。我们使用DeepSeek-R1作为教师模型生成80万数据，并对几个小模型进行微调。结果很有希望：DeepSeek-R1-Distill-Qwen-1.5B在数学基准上优于GPT-4o和Claude-3.5-Sonnet，分别在AIME和MATH上达到28.9％和83.9％。其他密集模型也取得了令人印象的结果，显著优于基于相同底层检查点的其他指令调整模型。

未来，我们计划对DeepSeek-R1进行以下方向的研究。

通用能力：目前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和json输出等任务上，能力还不及DeepSeek-V3。未来我们计划探索如何利用长CoT来增强这些领域的任务。语言混合：DeepSeek-R1 目前针对中文和英文进行了优化，因此在处理其他语言的查询时可能会出现语言混合问题。例如，即使查询不是英语或汉语，DeepSeek-R1 可能仍会使用英语进行推理和响应。我们计划在未来更新中解决这一限制。提示工程：在评估DeepSeek-R1时，我们发现它对提示很敏感。少样本提示会持续降低其性能。因此，我们建议用户直接描述问题，并使用零样本设置指定输出格式以获得最佳结果。软件工程任务：由于评估时间长，影响了RL过程的效率，大规模RL尚未在软件工程任务中得到广泛应用。因此，在软件工程基准上，DeepSeek-R1并没有比DeepSeek-V3显示出巨大的改进。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中引入异步评估来提高效率。

来源：莱娜探长

标签：论文推理 rl cot aime

本文地址：http://news.43b.com.cn/a/991783.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!