DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理:

B站影视 欧美电影 2025-03-31 12:15 1

摘要:DeepSeek-R1的开创性论文《DeepSeek-R1:通过强化学习激励大语言模型(LLMs)的推理能力》,对其性能进行了全面分析,结果令人惊叹。在标准语言模型基准测试中,DeepSeek-R1与OpenAI著名的o1系列展开较量,不仅与GPT4-o1等模

以下文章来源于柏企阅文 ,作者柏企

DeepSeek-R1的开创性论文《DeepSeek-R1:通过强化学习激励大语言模型(LLMs)的推理能力》,对其性能进行了全面分析,结果令人惊叹。在标准语言模型基准测试中,DeepSeek-R1与OpenAI著名的o1系列展开较量,不仅与GPT4-o1等模型表现相当,还常常超越它们,关键是运行成本只是其一小部分。这一成果意义非凡,不仅代表着强大的竞争力,更意味着我们对人工智能开发方式的思考迎来了根本性转变。

DeepSeek-R1在初始迭代版本DeepSeek-R1-Zero的训练上独辟蹊径,没有采用通常被视为必要的监督微调作为起点,而是想探究推理能否纯粹在强化激励的驱动下自然涌现。事实证明,他们成功了。

DeepSeek-R1-Zero展现出了论文中所说的“非凡推理能力”,甚至还呈现出自我纠正和反思等有趣行为,这些都是通过强化学习(RL)过程习得的。在此基础上,DeepSeek-R1通过多阶段训练进一步优化,在高难度推理任务上,性能足以与备受赞誉的OpenAI-o1-1217相抗衡。此外,DeepSeek-AI还探索将这些来之不易的推理技能融入更小模型。

传统提升大语言模型推理能力的方法,如思维链(CoT)提示(Wei等人,2022)和监督微调,只是让模型学会表达推理,却无法赋予其真正的、可适应的推理能力。

强化学习(RL)为这一困境提供了新的解决思路,也是DeepSeek-R1的核心技术。RL就像引导孩子学习,不是直接给出正确答案,而是布置任务,孩子取得进步时给予奖励,偏离方向时及时纠正,鼓励他们探索不同解决路径。对于人工智能而言,RL能定义“好的推理”,比如数学问题的解答准确性、代码逻辑的一致性等,再设计奖励系统,激励模型自主探索和优化策略。更重要的是,RL让模型在交互和实验中学习,发展出真正属于自己的推理机制,而不是简单复制人类示例。DeepSeek-R1将RL置于设计核心,致力于打造积极思考、主动解决问题的大语言模型。

要理解DeepSeek-R1的创新,必须先了解其前身DeepSeek-R1-Zero。它是一场大胆尝试,DeepSeek-AI仅通过强化学习训练它进行推理,刻意摒弃了初始监督微调(SFT)。

为实现这一目标,DeepSeek-AI采用了名为“组相对策略优化(GRPO)”的强化学习算法。在处理大规模大语言模型时,效率至关重要,GRPO正是基于此设计,为策略优化提供了高效的计算方法。其核心是GRPO目标函数,这一数学表达式引导着整个学习过程:

公式核心是更新模型的“策略”(用表示),策略可理解为模型生成文本的策略,即决定下一个词的方式。代表上一训练步骤的“旧策略”,保留它能确保更新平稳渐进,避免模型行为突变导致学习混乱。

术语表示从一组可能问题中采样问题输入模型,这些就是模型要解决的问题。针对每个问题,让旧策略生成一组答案,就像让学生集思广益解决问题。

奖励是关键部分。术语代表每个答案的“优势”,它基于答案获得的奖励计算。在DeepSeek-R1-Zero中,奖励主要依据答案准确性,正确答案获高奖励,错误答案得低奖励。但优势并非原始奖励,而是相对奖励,会将答案的奖励与组内所有答案平均奖励比较,再用标准差标准化。这种标准化对稳定训练意义重大,它聚焦于每组生成答案的相对改进,而非绝对奖励值,就像课堂上的曲线评分,重要的是与同学相比的表现。

这部分采用了近端策略优化(PPO)剪辑技术。比率衡量新策略和旧策略生成答案的概率变化。我们希望更新策略以青睐优势为正的“好答案”,但要谨慎进行。裁剪函数clip限制该比率在单次更新中的变化幅度,防止过度激进的更新破坏学习稳定性,就像温和引导学生走向正确方向,而非强制推动。

最后一项是正则化项。是Kullback-Leibler(KL)散度,用于衡量新策略与参考策略(可以是初始基础模型或之前的检查点)的差异。通过惩罚与参考策略的较大偏差,鼓励模型保持先前学习的行为,除非有充分理由改变,有助于维持稳定性,防止模型遗忘已学知识。是控制正则化强度的超参数。

本质上,GRPO通过迭代优化模型策略工作。针对每个问题生成一组答案,依据奖励评估质量,再微调策略,提高未来生成更好答案的概率,同时确保学习稳定可控。

DeepSeek-AI为DeepSeek-R1-Zero设计了基于规则的奖励系统,聚焦准确性和格式两个关键方面。准确性奖励很好理解,模型给出正确答案时就能获得。判断正确性的方法因任务而异,数学问题答案通常确定,基于规则的系统可验证按指定格式(如论文中提到的框内)呈现的最终答案是否正确;像LeetCode上的编码挑战,则用编译器根据预定义测试用例自动评估代码,客观反馈正确性。这些准确性奖励直接激励模型寻找正确解题策略。

但仅有准确性还不够,为引导模型采用更结构化、可解释的解题方式,DeepSeek-AI引入格式奖励。它鼓励模型明确区分推理过程和最终答案,按照训练模板要求,将分步思考内容放在和标签内,最终答案放在和标签中。这种格式设置并非直接提升答案正确性,而是让模型推理过程更透明、易理解,就像要求模型“展示解题过程,解释答案如何得出”。

这就涉及到DeepSeek-R1-Zero使用的训练模板,为启动RL过程并为模型输出提供基本结构,DeepSeek-AI采用了极为简单的模板:“User: prompt. Assistant: reasoning process here answer here .”训练时,“prompt”会被具体推理问题替换。这个模板极为简洁,不规定特定推理策略、不要求反思,也不偏向特定解题技巧。其简洁性至关重要,仅施加“思考 - 回答”的结构约束,DeepSeek-AI借此观察模型自然学习轨迹,见证RL过程中推理能力的自然涌现,避免“好推理”先入为主的观念干扰。

适应性思维时间

训练结果令人惊喜。DeepSeek-R1-Zero仅通过结合准确性和格式奖励的强化学习,借助简单模板训练,就展现出“非凡推理能力”。其中,模型“思考时间”的自我演变尤为有趣。随着训练推进,面对更复杂问题时,它学会分配更多计算资源,延长“思考”时间。这并非预先编程的行为,而是在RL过程中自发产生的。模型发现,对于某些高难度推理任务,生成更长思维令牌序列、探索更多内部路径,能带来更好结果和更高奖励。这表明模型不仅模式识别能力提升,还发展出更复杂、计算密集的解题方法。

或许最引人注目的发现是“顿悟时刻”的自发出现。在训练DeepSeek-R1-Zero中间版本时,模型展现出自我反思能力,能在推理过程中重新评估初始解题思路。论文中有个典型例子,在求解数学方程时,模型生成的回答包含“Wait, wait. Wait. That’s an aha moment I can flag here.”和“Let’s reevaluate this step-by-step…”等语句。这表明模型不仅在解题,还在有意识地监控自己的思维过程,识别潜在错误,决定回溯重新思考。这已超越复杂推理,属于元推理——对思考的思考。这个“顿悟时刻”对模型和研究人员来说都是重大突破,有力证明了强化学习挖掘人工智能深层次智能的巨大潜力。

尽管DeepSeek-R1-Zero成功验证了概念,证明强化学习能激发推理能力,但它也存在“可读性差”“语言混合”等问题。为解决这些不足,DeepSeek-AI基于R1-Zero开发了增强版DeepSeek-R1,通过精心设计的多阶段训练优化模型。

DeepSeek-R1的开发围绕两个关键问题展开:一是能否引入少量高质量数据“冷启动”,提升模型推理性能或加速训练,就像给数学家提供优秀证明示例启发写作风格,又不限制其数学思维;二是如何训练出既推理强大又用户友好,能清晰连贯呈现推理过程的模型。基于此,DeepSeek-R1采用了四阶段训练流程,旨在提升原始推理能力和推理表达能力。

DeepSeek-R1训练的第一阶段,是创建“冷启动”数据集,用于微调DeepSeek-V3-Base模型。这与R1-Zero从完全未训练状态开始RL训练的方式截然不同。冷启动目的在于:

从一开始就提高可读性:通过学习优质推理示例,引导模型生成更符合人类阅读习惯的输出。注入人类推理先验:数据集中融入人类推理模式,有望提升性能、加快学习速度。

冷启动数据集通过多种方法构建:

Few-shot提示:提供详细推理过程示例。提示反思和验证:鼓励更深入的推理风格。R1-Zero输出改进:提升自然学习的推理可读性。人工注释:确保数据质量和清晰度。

这个包含数千示例的数据集,用于微调DeepSeek-V3-Base模型,为后续RL阶段打造初始模型。微调后的输出结构清晰:|special_token||special_token|

,显著提升可读性,形成统一“可读模式”。

在冷启动微调基础上,DeepSeek-R1进入大规模RL训练阶段,着重提升编码、数学、科学问题和逻辑谜题等任务的推理能力。这一阶段面临的关键挑战是思维链推理中的语言混合,尤其是多语言提示情况。为此,DeepSeek-AI引入“语言一致性奖励”,按目标语言单词比例计算。虽然这会使原始基准测试性能略有下降,但语言一致性和可读性大幅提升。最终奖励信号综合了准确性和语言一致性。RL训练持续进行,直到模型在目标推理任务上收敛。

此阶段重点从强化推理能力转向更全面的优化和提升用户友好性。第2阶段RL训练的检查点用于生成新的SFT数据,扩展模型技能,涵盖创意写作、角色扮演和通用任务等领域。具体过程包括:

拒绝采样:生成推理轨迹,依据基于规则的奖励和生成奖励模型(DeepSeek-V3)判断,剔除不符合质量标准的部分,如语言混合、段落过长、代码块混乱等情况。非推理数据合并:从DeepSeek-V3管道和数据集中提取数据,维持模型写作、事实问答、自我认知和翻译等通用能力。部分非推理数据通过CoT提示融入隐式推理内容。

大约80万个样本的组合数据集用于微调DeepSeek-V3-Base模型,进一步优化推理能力,拓展通用功能。

最后阶段旨在让模型全面契合人类偏好,不仅关注推理准确性和可读性,还包括有用性和无害性。通过多样化提示和奖励信号开展二次RL过程:

推理数据:继续采用基于规则的奖励,聚焦准确性。一般数据:运用神经奖励模型捕捉人类细微偏好。乐于助人:奖励重点放在最终总结上。无害:评估整个回复,包括推理和总结内容。

这一阶段造就了DeepSeek-R1,它不仅推理出色,还在有用性、无害性和整体用户体验上表现优异。

大语言模型追求智能化的趋势使得模型规模不断增大,计算需求飙升,可访问性和效率受到影响。为解决这一问题,DeepSeek-AI采用蒸馏技术,将大型“教师”模型的知识转移到较小的“学生”模型,目标是把DeepSeek-R1的推理能力融入更易管理的模型,扩大应用范围。

蒸馏方法

DeepSeek-AI的蒸馏方法简单高效,利用DeepSeek-R1监督微调(SFT)阶段精心挑选的80万个高质量训练样本,这些包含推理和非推理示例的数据,成为小“学生”模型的训练素材。

在选择基础架构时,Qwen和Llama等开源模型因广泛应用和强大性能入选。对这些基础模型的不同规模版本进行微调,如Qwen2.5-Math-1.5B、7B、14B、32B,Qwen2.5-14B、32B,Llama-3.1-8B和Llama-3.3-70B-Instruct等。

关键的是,蒸馏过程仅采用SFT,刻意不进行额外RL训练,以便单独验证蒸馏技术的效果。

蒸馏结果

蒸馏成果令人瞩目。最小的蒸馏模型DeepSeek-R1-Distill-Qwen-1.5B在多项基准测试中,超越了GPT-4o-0513等较大的非推理模型。更大的蒸馏模型表现更突出,DeepSeek-R1–14B在所有评估指标上超过最先进的开源模型QwQ-32B-Preview;DeepSeek-R1–32B和DeepSeek-R1–70B在多数基准测试中,性能远超OpenAI-o1-mini。这些结果充分证明了蒸馏技术在将DeepSeek-R1推理能力转移到更小、更高效模型上的有效性。

为对比蒸馏和直接RL训练效果,DeepSeek-AI用类似DeepSeek-R1-Zero的大规模RL过程训练Qwen-32B-Base,专注数学、代码和STEM数据,得到模型DeepSeek-R1-Zero-Qwen-32B,再与蒸馏模型DeepSeek-R1-Distill-Qwen-32B比较。

经过大量RL训练,DeepSeek-R1-Zero-Qwen-32B性能与QwQ-32B-Preview相当。但在所有推理基准测试中,DeepSeek-R1-Distill-Qwen-32B表现明显更优。

通过对比,DeepSeek-AI得出两个重要结论:一是蒸馏是赋予小模型强大推理能力的高效方法,从大模型直接转移学习到的推理模式,比在小模型中单纯通过RL从头训练推理能力更有效(在现有规模下);二是虽然蒸馏让高性能推理模型更易获取,但推动人工智能发展可能仍需开发更强大的基础模型,深入探索大规模RL。目前,蒸馏让先进人工智能更普及,但追求更高智能水平,或许要在模型规模和RL等学习范式上持续探索。

结语

DeepSeek-R1为具备推理能力的大语言模型开发带来了全新范式。DeepSeek-AI将强化学习作为核心训练机制,证明推理能力可以直接学习和优化,而非单纯依赖模型规模产生。多阶段训练和蒸馏技术的成功,凸显了这一方法的强大力量。DeepSeek-R1的方法论为未来研究提供了宝贵蓝图,有望推动构建更强大、真正智能的人工智能系统。

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948v1.Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv:1409.0473.Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv:1503.02531.Ranzato, M., Chopra, S., Auli, M., & Zaremba, W. (2015). Sequence to sequence learning with recurrent neural networks. arXiv:1409.3215.Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv:1707.06347.

来源:人工智能学家

相关推荐