DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理：

摘要：DeepSeek-R1的开创性论文《DeepSeek-R1：通过强化学习激励大语言模型（LLMs）的推理能力》，对其性能进行了全面分析，结果令人惊叹。在标准语言模型基准测试中，DeepSeek-R1与OpenAI著名的o1系列展开较量，不仅与GPT4-o1等模

以下文章来源于柏企阅文，作者柏企

DeepSeek-R1的开创性论文《DeepSeek-R1：通过强化学习激励大语言模型（LLMs）的推理能力》，对其性能进行了全面分析，结果令人惊叹。在标准语言模型基准测试中，DeepSeek-R1与OpenAI著名的o1系列展开较量，不仅与GPT4-o1等模型表现相当，还常常超越它们，关键是运行成本只是其一小部分。这一成果意义非凡，不仅代表着强大的竞争力，更意味着我们对人工智能开发方式的思考迎来了根本性转变。

DeepSeek-R1在初始迭代版本DeepSeek-R1-Zero的训练上独辟蹊径，没有采用通常被视为必要的监督微调作为起点，而是想探究推理能否纯粹在强化激励的驱动下自然涌现。事实证明，他们成功了。

DeepSeek-R1-Zero展现出了论文中所说的“非凡推理能力”，甚至还呈现出自我纠正和反思等有趣行为，这些都是通过强化学习（RL）过程习得的。在此基础上，DeepSeek-R1通过多阶段训练进一步优化，在高难度推理任务上，性能足以与备受赞誉的OpenAI-o1-1217相抗衡。此外，DeepSeek-AI还探索将这些来之不易的推理技能融入更小模型。

传统提升大语言模型推理能力的方法，如思维链（CoT）提示（Wei等人，2022）和监督微调，只是让模型学会表达推理，却无法赋予其真正的、可适应的推理能力。

强化学习（RL）为这一困境提供了新的解决思路，也是DeepSeek-R1的核心技术。RL就像引导孩子学习，不是直接给出正确答案，而是布置任务，孩子取得进步时给予奖励，偏离方向时及时纠正，鼓励他们探索不同解决路径。对于人工智能而言，RL能定义“好的推理”，比如数学问题的解答准确性、代码逻辑的一致性等，再设计奖励系统，激励模型自主探索和优化策略。更重要的是，RL让模型在交互和实验中学习，发展出真正属于自己的推理机制，而不是简单复制人类示例。DeepSeek-R1将RL置于设计核心，致力于打造积极思考、主动解决问题的大语言模型。

要理解DeepSeek-R1的创新，必须先了解其前身DeepSeek-R1-Zero。它是一场大胆尝试，DeepSeek-AI仅通过强化学习训练它进行推理，刻意摒弃了初始监督微调（SFT）。

为实现这一目标，DeepSeek-AI采用了名为“组相对策略优化（GRPO）”的强化学习算法。在处理大规模大语言模型时，效率至关重要，GRPO正是基于此设计，为策略优化提供了高效的计算方法。其核心是GRPO目标函数，这一数学表达式引导着整个学习过程：

公式核心是更新模型的“策略”（用表示），策略可理解为模型生成文本的策略，即决定下一个词的方式。代表上一训练步骤的“旧策略”，保留它能确保更新平稳渐进，避免模型行为突变导致学习混乱。

术语表示从一组可能问题中采样问题输入模型，这些就是模型要解决的问题。针对每个问题，让旧策略生成一组答案，就像让学生集思广益解决问题。

奖励是关键部分。术语代表每个答案的“优势”，它基于答案获得的奖励计算。在DeepSeek-R1-Zero中，奖励主要依据答案准确性，正确答案获高奖励，错误答案得低奖励。但优势并非原始奖励，而是相对奖励，会将答案的奖励与组内所有答案平均奖励比较，再用标准差标准化。这种标准化对稳定训练意义重大，它聚焦于每组生成答案的相对改进，而非绝对奖励值，就像课堂上的曲线评分，重要的是与同学相比的表现。

这部分采用了近端策略优化（PPO）剪辑技术。比率衡量新策略和旧策略生成答案的概率变化。我们希望更新策略以青睐优势为正的“好答案”，但要谨慎进行。裁剪函数clip限制该比率在单次更新中的变化幅度，防止过度激进的更新破坏学习稳定性，就像温和引导学生走向正确方向，而非强制推动。

最后一项是正则化项。是Kullback-Leibler（KL）散度，用于衡量新策略与参考策略（可以是初始基础模型或之前的检查点）的差异。通过惩罚与参考策略的较大偏差，鼓励模型保持先前学习的行为，除非有充分理由改变，有助于维持稳定性，防止模型遗忘已学知识。是控制正则化强度的超参数。

本质上，GRPO通过迭代优化模型策略工作。针对每个问题生成一组答案，依据奖励评估质量，再微调策略，提高未来生成更好答案的概率，同时确保学习稳定可控。

DeepSeek-AI为DeepSeek-R1-Zero设计了基于规则的奖励系统，聚焦准确性和格式两个关键方面。准确性奖励很好理解，模型给出正确答案时就能获得。判断正确性的方法因任务而异，数学问题答案通常确定，基于规则的系统可验证按指定格式（如论文中提到的框内）呈现的最终答案是否正确；像LeetCode上的编码挑战，则用编译器根据预定义测试用例自动评估代码，客观反馈正确性。这些准确性奖励直接激励模型寻找正确解题策略。

但仅有准确性还不够，为引导模型采用更结构化、可解释的解题方式，DeepSeek-AI引入格式奖励。它鼓励模型明确区分推理过程和最终答案，按照训练模板要求，将分步思考内容放在和标签内，最终答案放在和标签中。这种格式设置并非直接提升答案正确性，而是让模型推理过程更透明、易理解，就像要求模型“展示解题过程，解释答案如何得出”。

这就涉及到DeepSeek-R1-Zero使用的训练模板，为启动RL过程并为模型输出提供基本结构，DeepSeek-AI采用了极为简单的模板：“User: prompt. Assistant: reasoning process here answer here .”训练时，“prompt”会被具体推理问题替换。这个模板极为简洁，不规定特定推理策略、不要求反思，也不偏向特定解题技巧。其简洁性至关重要，仅施加“思考 - 回答”的结构约束，DeepSeek-AI借此观察模型自然学习轨迹，见证RL过程中推理能力的自然涌现，避免“好推理”先入为主的观念干扰。

适应性思维时间

训练结果令人惊喜。DeepSeek-R1-Zero仅通过结合准确性和格式奖励的强化学习，借助简单模板训练，就展现出“非凡推理能力”。其中，模型“思考时间”的自我演变尤为有趣。随着训练推进，面对更复杂问题时，它学会分配更多计算资源，延长“思考”时间。这并非预先编程的行为，而是在RL过程中自发产生的。模型发现，对于某些高难度推理任务，生成更长思维令牌序列、探索更多内部路径，能带来更好结果和更高奖励。这表明模型不仅模式识别能力提升，还发展出更复杂、计算密集的解题方法。

或许最引人注目的发现是“顿悟时刻”的自发出现。在训练DeepSeek-R1-Zero中间版本时，模型展现出自我反思能力，能在推理过程中重新评估初始解题思路。论文中有个典型例子，在求解数学方程时，模型生成的回答包含“Wait, wait. Wait. That’s an aha moment I can flag here.”和“Let’s reevaluate this step-by-step…”等语句。这表明模型不仅在解题，还在有意识地监控自己的思维过程，识别潜在错误，决定回溯重新思考。这已超越复杂推理，属于元推理——对思考的思考。这个“顿悟时刻”对模型和研究人员来说都是重大突破，有力证明了强化学习挖掘人工智能深层次智能的巨大潜力。

尽管DeepSeek-R1-Zero成功验证了概念，证明强化学习能激发推理能力，但它也存在“可读性差”“语言混合”等问题。为解决这些不足，DeepSeek-AI基于R1-Zero开发了增强版DeepSeek-R1，通过精心设计的多阶段训练优化模型。

DeepSeek-R1的开发围绕两个关键问题展开：一是能否引入少量高质量数据“冷启动”，提升模型推理性能或加速训练，就像给数学家提供优秀证明示例启发写作风格，又不限制其数学思维；二是如何训练出既推理强大又用户友好，能清晰连贯呈现推理过程的模型。基于此，DeepSeek-R1采用了四阶段训练流程，旨在提升原始推理能力和推理表达能力。

DeepSeek-R1训练的第一阶段，是创建“冷启动”数据集，用于微调DeepSeek-V3-Base模型。这与R1-Zero从完全未训练状态开始RL训练的方式截然不同。冷启动目的在于：

从一开始就提高可读性：通过学习优质推理示例，引导模型生成更符合人类阅读习惯的输出。注入人类推理先验：数据集中融入人类推理模式，有望提升性能、加快学习速度。

冷启动数据集通过多种方法构建：

Few-shot提示：提供详细推理过程示例。提示反思和验证：鼓励更深入的推理风格。R1-Zero输出改进：提升自然学习的推理可读性。人工注释：确保数据质量和清晰度。

这个包含数千示例的数据集，用于微调DeepSeek-V3-Base模型，为后续RL阶段打造初始模型。微调后的输出结构清晰：|special_token||special_token|

，显著提升可读性，形成统一“可读模式”。

在冷启动微调基础上，DeepSeek-R1进入大规模RL训练阶段，着重提升编码、数学、科学问题和逻辑谜题等任务的推理能力。这一阶段面临的关键挑战是思维链推理中的语言混合，尤其是多语言提示情况。为此，DeepSeek-AI引入“语言一致性奖励”，按目标语言单词比例计算。虽然这会使原始基准测试性能略有下降，但语言一致性和可读性大幅提升。最终奖励信号综合了准确性和语言一致性。RL训练持续进行，直到模型在目标推理任务上收敛。

此阶段重点从强化推理能力转向更全面的优化和提升用户友好性。第2阶段RL训练的检查点用于生成新的SFT数据，扩展模型技能，涵盖创意写作、角色扮演和通用任务等领域。具体过程包括：

拒绝采样：生成推理轨迹，依据基于规则的奖励和生成奖励模型（DeepSeek-V3）判断，剔除不符合质量标准的部分，如语言混合、段落过长、代码块混乱等情况。非推理数据合并：从DeepSeek-V3管道和数据集中提取数据，维持模型写作、事实问答、自我认知和翻译等通用能力。部分非推理数据通过CoT提示融入隐式推理内容。

大约80万个样本的组合数据集用于微调DeepSeek-V3-Base模型，进一步优化推理能力，拓展通用功能。

最后阶段旨在让模型全面契合人类偏好，不仅关注推理准确性和可读性，还包括有用性和无害性。通过多样化提示和奖励信号开展二次RL过程：

推理数据：继续采用基于规则的奖励，聚焦准确性。一般数据：运用神经奖励模型捕捉人类细微偏好。乐于助人：奖励重点放在最终总结上。无害：评估整个回复，包括推理和总结内容。

这一阶段造就了DeepSeek-R1，它不仅推理出色，还在有用性、无害性和整体用户体验上表现优异。

大语言模型追求智能化的趋势使得模型规模不断增大，计算需求飙升，可访问性和效率受到影响。为解决这一问题，DeepSeek-AI采用蒸馏技术，将大型“教师”模型的知识转移到较小的“学生”模型，目标是把DeepSeek-R1的推理能力融入更易管理的模型，扩大应用范围。

蒸馏方法

DeepSeek-AI的蒸馏方法简单高效，利用DeepSeek-R1监督微调（SFT）阶段精心挑选的80万个高质量训练样本，这些包含推理和非推理示例的数据，成为小“学生”模型的训练素材。

在选择基础架构时，Qwen和Llama等开源模型因广泛应用和强大性能入选。对这些基础模型的不同规模版本进行微调，如Qwen2.5-Math-1.5B、7B、14B、32B，Qwen2.5-14B、32B，Llama-3.1-8B和Llama-3.3-70B-Instruct等。

关键的是，蒸馏过程仅采用SFT，刻意不进行额外RL训练，以便单独验证蒸馏技术的效果。

蒸馏结果

蒸馏成果令人瞩目。最小的蒸馏模型DeepSeek-R1-Distill-Qwen-1.5B在多项基准测试中，超越了GPT-4o-0513等较大的非推理模型。更大的蒸馏模型表现更突出，DeepSeek-R1–14B在所有评估指标上超过最先进的开源模型QwQ-32B-Preview；DeepSeek-R1–32B和DeepSeek-R1–70B在多数基准测试中，性能远超OpenAI-o1-mini。这些结果充分证明了蒸馏技术在将DeepSeek-R1推理能力转移到更小、更高效模型上的有效性。

为对比蒸馏和直接RL训练效果，DeepSeek-AI用类似DeepSeek-R1-Zero的大规模RL过程训练Qwen-32B-Base，专注数学、代码和STEM数据，得到模型DeepSeek-R1-Zero-Qwen-32B，再与蒸馏模型DeepSeek-R1-Distill-Qwen-32B比较。

经过大量RL训练，DeepSeek-R1-Zero-Qwen-32B性能与QwQ-32B-Preview相当。但在所有推理基准测试中，DeepSeek-R1-Distill-Qwen-32B表现明显更优。

通过对比，DeepSeek-AI得出两个重要结论：一是蒸馏是赋予小模型强大推理能力的高效方法，从大模型直接转移学习到的推理模式，比在小模型中单纯通过RL从头训练推理能力更有效（在现有规模下）；二是虽然蒸馏让高性能推理模型更易获取，但推动人工智能发展可能仍需开发更强大的基础模型，深入探索大规模RL。目前，蒸馏让先进人工智能更普及，但追求更高智能水平，或许要在模型规模和RL等学习范式上持续探索。

结语

DeepSeek-R1为具备推理能力的大语言模型开发带来了全新范式。DeepSeek-AI将强化学习作为核心训练机制，证明推理能力可以直接学习和优化，而非单纯依赖模型规模产生。多阶段训练和蒸馏技术的成功，凸显了这一方法的强大力量。DeepSeek-R1的方法论为未来研究提供了宝贵蓝图，有望推动构建更强大、真正智能的人工智能系统。

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948v1.Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv:1409.0473.Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv:1503.02531.Ranzato, M., Chopra, S., Auli, M., & Zaremba, W. (2015). Sequence to sequence learning with recurrent neural networks. arXiv:1409.3215.Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv:1707.06347.

来源：人工智能学家

标签：模型推理 rl 顿悟数学原理

本文地址：http://news.43b.com.cn/a/999332.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!