颤抖吧!Deepseek颠覆性模型——R1,让英伟达股票暴跌6000亿美元

B站影视 2025-02-06 11:21 1

摘要:DeepSeek在2025年初的崭露头角,标志着人工智能领域的一次重大变革,尤其是在机器学习的推理能力方面。深度求索公司凭借其创新的DeepSeek-R1模型引起了全球关注,尤其是在一项突破性成果发布后,英伟达股价在一天之内暴跌6000亿美元,这成为了历史上最

DeepSeek在2025年初的崭露头角,标志着人工智能领域的一次重大变革,尤其是在机器学习的推理能力方面。深度求索公司凭借其创新的DeepSeek-R1模型引起了全球关注,尤其是在一项突破性成果发布后,英伟达股价在一天之内暴跌6000亿美元,这成为了历史上最大的单日市值损失。

DeepSeek-R1的核心突破在于其创新的训练方法:使用强化学习(RL)来激励大语言模型(LLM)的推理能力。根据其原始研究论文,DeepSeek-R1不仅在性能上能够与OpenAI的GPT-4等著名模型相媲美,还在计算成本上表现出极高的效率。这一成就不仅展示了具有竞争力的性能,还挑战了人工智能开发的传统思维方式。

DeepSeek-R1的最初版本,名为DeepSeek-R1-Zero,是在没有任何监督微调的情况下进行训练的,这一做法常被认为是必要的前置步骤。通过这种方式,DeepSeek验证了推理能力可以仅通过强化学习的激励自然地出现,并且DeepSeek-R1-Zero确实展示出了惊人的推理能力,甚至表现出了自我纠正和反思等复杂行为。

在此基础上,DeepSeek通过多阶段训练流程进一步改进了DeepSeek-R1,并使其在高推理任务中达到了与OpenAI-o1–1217等先进模型相媲美的表现。值得注意的是,DeepSeek-AI还探索了如何将这些先进的推理技能浓缩到更小的模型中,从而使强大的AI变得更加可接近和高效。

DeepSeek-R1的突破性意义在于,它不仅推动了大语言模型的渐进式改进,更代表了AI训练方式的根本性转变。它提出了一个全新的观点:我们不再仅仅训练模型识别数据模式,而是让它们像人类一样主动进行推理、制定策略并解决问题。

本文将深入探讨DeepSeek-R1的数学和方法论核心,回顾所采用的强化学习技术,并分析促成这些惊人成果的创新之处。

大语言模型中的推理

传统的增强 LLM 推理能力的方法通常围绕链式思维(Chain-of-Thought, CoT)提示等技术展开,其中模型被鼓励明确地列出其推理步骤,或通过监督微调,训练它们在包含推理解答的示例数据集上进行训练。尽管这些方法取得了一些成功,但它们往往未能培养出一种根本性的、可适应的推理能力。本质上,它们是在教模型如何表达推理,而不是如何真正进行推理。

强化学习(RL)正是在这样的背景下成为一种极具吸引力的替代方案,并成为 DeepSeek-AI 在 DeepSeek-R1 训练中所推崇的方法。正如他们在研究论文中所强调的,RL 提供了一个框架,可以直接激励与推理相关的行为。

可以把 RL 理解为 AI 版的学习过程,就像一个孩子学习新知识一样。孩子并不是单纯地被告知正确答案,而是通过完成任务来获得奖励,遇到错误时会被引导纠正,并鼓励他们尝试不同的解决方案。RL 在人工智能中模拟了这一学习模式,使我们能够明确界定“良好推理”的标准,例如数学计算的准确性或代码的逻辑一致性,然后设计奖励机制,引导模型自主探索并优化策略,以更有效地达成目标。

更重要的是,RL 让模型能够通过交互和实验不断学习,逐步发展出自身的推理机制。这种推理能力并非通过预设规则或简单模仿人类示例得来,而是真正从学习过程中涌现出来的。因此,DeepSeek-R1 的意义不仅仅是技术上的进一步提升,而是 AI 训练方法的一次方向性变革。它将强化学习置于核心位置,旨在打造一个不仅能存储信息,更能主动思考和解决问题的大语言模型(LLM)。

DeepSeek-R1-Zero

要真正理解 DeepSeek-R1 的创新性,首先需要了解它的前身:DeepSeek-R1-Zero。这个模型代表了一次大胆的实验。DeepSeek-AI 开始了一个旅程,旨在仅通过强化学习来训练 DeepSeek-R1-Zero 进行推理,故意省略了任何初始的监督微调(SFT)。

GRPO 算法:一种学习的数学框架

为了实现这一目标,DeepSeek-AI 采用了一种特定的强化学习算法,称为“群体相对策略优化”(Group Relative Policy Optimization,GRPO)。在强化学习中,效率至关重要,尤其是当处理大型语言模型时。GRPO 正是考虑到这一点,提供了一种在策略优化过程中计算效率高的方案。它的核心是 GRPO 目标函数,这是一个数学表达式,用于引导学习过程:

群体相对策略优化公式

这个公式的核心在于更新模型的“策略”,用 表示。可以将策略视为模型生成文本的策略,即它决定下一个要生成的单词。 是“旧”策略,来自上一个训练步骤。我们需要这个旧策略,以确保更新是渐进的和稳定的,防止模型在每一步中发生剧烈的行为变化,从而导致混乱的学习。

术语 ∼ 表示我们将问题 q 输入模型,这些问题是从一组可能的问题 P(Q) 中采样的。这些是我们希望模型“学生团队(the model)”解决的问题。对于每个问题,我们要求旧策略生成一组答案 {}。这就像是让学生们集思广益,探索不同的解题方法。

接下来是至关重要的部分:奖励。术语 A_i 代表每个答案 o_i 的“优势”。这个优势是根据每个答案获得的奖励来计算的。对于 DeepSeek-R1-Zero 而言,奖励主要是基于答案的准确性。如果一个答案正确,它会得到较高的奖励;如果答案不正确,则会得到较低的奖励。

优势并不仅仅是原始奖励 r_i,而是相对奖励。它将答案 o_i 的奖励与该组所有答案的平均奖励进行比较,并通过标准差进行标准化。这个标准化过程对于稳定训练非常重要,因为它侧重于每组生成答案中的相对改进,而不是绝对的奖励值。可以把它理解为课堂中的曲线评分;这不仅仅是获取一个绝对好分数的问题,而是与同学们的表现相比,你的表现如何。

这一部分使用了被称为“近端策略优化”(Proximal Policy Optimization,PPO)剪切的技术。比例

衡量在新策略和旧策略之间生成答案 $o_i$ 的概率变化幅度。我们希望更新策略,以倾向于生成有正优势(好答案)的答案,但我们希望谨慎地进行。剪切函数

限制了这个比例在单次更新步骤中变化的幅度,防止过于激进的更新导致学习不稳定。这就像是在温和地引导学生朝正确方向前进,而不是强行推他们。

最后,术语

是一个正则化项。

是 Kullback-Leibler(KL)散度,它衡量新策略 与参考策略 的差异。在这个背景下,参考策略可以是初始的基础模型或先前的检查点。通过惩罚与参考策略的偏差过大,这个项鼓励模型保持与之前学习的行为接近,除非有充分的理由进行改变。它有助于维持稳定性,防止模型遗忘已经学到的知识。 是一个超参数,用来控制这一正则化的强度。

本质上,GRPO 通过迭代地优化模型的策略来工作。对于每个问题,它生成一组答案,基于奖励评估它们的质量,然后温和地调整策略,增加未来生成更好答案的概率,同时确保稳定和受控的学习过程。

准确性与格式奖励

对于 DeepSeek-R1-Zero,DeepSeek-AI 采用了基于规则的奖励系统,重点关注两个关键方面:准确性和格式。准确性奖励顾名思义,当模型生成正确答案时,会给予奖励。确定正确性的方式根据任务的不同而有所不同。例如,对于数学问题,答案通常是确定性的,基于规则的系统可以可靠地验证最终答案(如论文中提到的在框内呈现的答案)是否正确。类似地,对于像 LeetCode 这样的编程挑战,可以使用编译器自动评估代码是否通过了预定义的测试用例,从而提供关于正确性的客观反馈。这些准确性奖励作为主要信号,直接激励模型找到导致正确解答的策略。

然而,仅仅依靠准确性并不总是足够的。为了引导模型不仅朝着正确答案前进,还能够采取更结构化、可解释的方式解决问题,DeepSeek-AI 引入了格式奖励。这些奖励鼓励模型明确区分其推理过程与最终答案。具体而言,模型被激励将其逐步思考过程放在 和 标签之间,而最终答案则放在 和 标签之间,按照训练模板的要求。这个格式化并非直接提升答案的正确性,而是让模型的推理过程更加透明和可接近。这相当于对模型说:“展示你的思路!解释你是如何得出答案的。”

这引出了 DeepSeek-R1-Zero 使用的训练模板。为了启动强化学习(RL)过程并为模型输出提供基本框架,DeepSeek-AI 使用了一个非常简单的模板。正如他们在论文中所述,这基本上是一个对话提示:“User: prompt. Assistant: reasoning process here answer here 。” 在训练过程中,“prompt” 会被具体的推理问题替换。这个模板非常简洁。它没有规定任何特定的推理策略,不要求反思,也不偏向于特定的解决问题技术。它的简洁性恰恰是其关键。通过仅施加这个结构性约束——先思考,再回答——DeepSeek-AI 旨在观察模型的自然学习轨迹,见证从 RL 过程自然涌现的推理能力,而不受“良好推理”应该是什么样子的预设观念的限制。

自适应思考时间

随之而来的是令人着迷的发现。DeepSeek-R1-Zero 仅通过强化学习训练,结合这些准确性和格式奖励以及这个简单的模板,开始展示出“显著的推理能力”,正如研究人员所指出的那样。最引人注目的一项观察是模型自我演化的“思考时间”。随着训练的进展,DeepSeek-R1-Zero 学会了在面对更复杂的问题时,分配更多的计算资源,有效地“思考”更长时间。这不是预编程的行为;它是通过 RL 过程自发产生的。模型发现,对于某些挑战性推理任务,生成更长的思考序列并探索更多的内部路径,会带来更好的结果,从而获得更高的奖励。这是一个至关重要的洞察:模型不仅仅是在模式识别上变得更好;它正在发展出一种更复杂、计算密集型的解决问题方法。

“Aha时刻”

或许最吸引人的发现是,研究人员称之为“aha时刻”的自发出现。在训练 DeepSeek-R1-Zero 的中间版本时,模型展示了自我反思的能力,能够在推理过程中重新评估自己最初的解题方法。论文中有一个特别具代表性的例子,在解一个数学方程时,模型生成了一段回应,其中包括“等等,等等。等等,这是我可以标记的一个aha时刻。” 和 “我们来一步步重新评估这个…” 这就像是模型不仅仅在解决问题,而且还在有意识地监控自己的思维过程,识别出潜在的错误,并决定回溯和重新考虑。这不仅仅是复杂的推理;这是元推理,是对思考本身的思考。这个“aha时刻”不仅是模型的突破;正如研究人员自己所描述的,这也是他们的“aha时刻”,展示了强化学习能够解锁人工系统中意想不到的深刻智能的潜力。

DeepSeek-R1 和多阶段训练

虽然 DeepSeek-R1-Zero 作为一个出色的概念验证,展示了推理能够从纯强化学习中涌现出来的潜力,但它也存在一些局限性。正如 DeepSeek-AI 研究人员在论文中所承认的那样,DeepSeek-R1-Zero 遇到了“可读性差”和“语言混杂”等问题。为了解决这些实际问题,DeepSeek-AI 开发了 DeepSeek-R1,这是一个增强版模型,通过精心设计的多阶段训练流程,建立在 R1-Zero 的基础上。

DeepSeek-R1 的开发是由两个关键问题驱动的:

通过引入少量高质量的数据作为“冷启动”,能否进一步提高模型的推理表现或加速训练过程?可以把它想象成给一位出色的数学家提供一些写得很好的数学证明示例,以指导他们自己的写作风格,而不是指引他们的数学思维。如何训练一个既能强大推理又易于使用的模型,能够生成清晰、一致、易于理解的推理过程?这些问题促成了 DeepSeek-R1 的四阶段训练流程的创建,这个过程旨在优化模型的推理能力和有效传达推理的能力。

阶段1:冷启动数据和初始微调

DeepSeek-R1的训练的第一阶段涉及创建一个“冷启动”数据集,并用它对DeepSeek-V3-Base模型进行微调。这种方法与R1-Zero大不相同,后者从完全未训练的状态开始强化学习(RL)训练。冷启动的目标是:

从一开始就改善可读性:通过训练于写得良好的推理示例,模型被引导生成更符合人类阅读习惯的输出。注入人类推理先验:数据集包含了由人类推理模式得出的示例,可能有助于提升表现并加速学习。

冷启动数据集通过以下几种方式创建:

少量提示(Few-shot Prompting):提供详细推理过程的示例。反思与验证提示(Prompting for Reflection and Verification):鼓励更为深思熟虑的推理风格。R1-Zero输出的改进:改善有机学习的推理结果的可读性。人工标注:确保数据质量和清晰度。

这个数据集包含了成千上万的示例,用来微调DeepSeek-V3-Base模型,创建出下一阶段RL训练的初始演员。微调后的输出结构清晰:|special_token||special_token|,显著改善了可读性,并推动了“可读模式”的一致性。

阶段2:以推理为导向的强化学习

在冷启动微调的基础上,DeepSeek-R1进入了一个大规模的强化学习训练过程,重点提升在编程、数学、科学问题和逻辑难题等任务中的推理能力。这个阶段的一个主要挑战是链式推理中的语言混杂,尤其是在多语言提示下。为了解决这个问题,DeepSeek-AI 引入了“语言一致性奖励”,其计算方式是目标语言中单词的比例。尽管这可能会稍微降低原始基准表现,但它显著提高了语言一致性和可读性。最终的奖励信号结合了准确性和语言一致性。该RL训练持续进行,直到模型在目标推理任务上收敛。

阶段3:拒绝采样和监督微调(SFT)

这个阶段的焦点从纯粹的推理提升转向了更广泛的精炼和用户友好性。第二阶段经过RL训练的检查点被用来生成新的SFT数据。这些数据扩展了模型的技能集,包括创意写作、角色扮演和通用任务。这个过程包括:

拒绝采样(Rejection Sampling):生成推理轨迹,并拒绝那些不符合质量标准的轨迹,质量标准通过基于规则的奖励和生成奖励模型(DeepSeek-V3)进行判断。标准包括语言混杂、过长段落和混乱的代码块。加入非推理数据:从DeepSeek-V3流程和数据集中引入非推理数据,以保持模型在写作、事实问题回答、自我认知和翻译等方面的通用能力。部分非推理数据通过链式推理(CoT)提示增强了隐式推理。

这个数据集包含大约80万样本,用于进一步微调DeepSeek-V3-Base模型,进一步优化推理能力并扩展通用能力。

阶段4:全场景强化学习

最后一个阶段旨在与人类偏好进行整体对齐,涵盖不仅仅是推理准确性和可读性,还包括有用性和无害性。通过使用多样化的提示和奖励信号,实施了二次强化学习过程:

推理数据:继续使用基于规则的奖励,侧重于准确性。通用数据:使用神经奖励模型捕捉细致的人类偏好。有用性:奖励侧重于最终的总结。无害性:评估整个回应,包括推理和总结。

这个最终的RL阶段使DeepSeek-R1成为一个在推理能力方面表现卓越,同时优先考虑有用性、无害性和整体用户体验的模型。

蒸馏:将推理能力转移到较小的模型中

随着大型语言模型智能化趋势的不断上升,模型的规模越来越大,导致了计算需求的增加,影响了可访问性和效率。为了解决这个问题,DeepSeek-AI采用了蒸馏技术,将大型“教师”模型的知识转移到较小的“学生”模型中。在DeepSeek-R1的背景下,目标是将其推理能力蒸馏到更易于管理的模型中,以便更广泛地访问。

蒸馏方法

DeepSeek-AI的蒸馏方法直接而有效,利用了在DeepSeek-R1的监督微调(SFT)阶段策划的80万高质量训练样本。这个数据集包含了推理和非推理示例,为更小的“学生”模型提供了训练场地。

基础架构:选择了像Qwen和Llama这样的开源模型作为基础架构,因其广泛的使用和强大的性能。模型大小:微调了这些基础模型的不同大小,包括Qwen2.5-Math-1.5B、7B、14B、32B,Qwen2.5–14B、32B,Llama-3.1–8B以及Llama-3.3–70B-Instruct。训练方法:关键点在于蒸馏过程中仅使用了SFT,故意排除了对较小模型的进一步强化学习(RL)。这一做法隔离了蒸馏技术本身的有效性。

蒸馏结果

蒸馏结果令人印象深刻。

最小模型性能:即使是最小的蒸馏模型DeepSeek-R1-Distill-Qwen-1.5B,在多个基准测试中也超越了像GPT-4o-0513这样的较大非推理模型。较大模型性能:更大的蒸馏模型取得了更为显著的成果。DeepSeek-R1–14B在所有评估指标上超过了最先进的开源模型QwQ-32B-Preview。DeepSeek-R1–32B和DeepSeek-R1–70B在大多数基准测试中显著超越了OpenAI-o1-mini的表现。

这些结果展示了蒸馏技术在将DeepSeek-R1的推理能力转移到更小、更高效的模型中的有效性。

与直接RL训练的比较

为了将蒸馏与直接的强化学习训练进行比较,DeepSeek-AI使用类似于DeepSeek-R1-Zero的大规模RL过程,训练了Qwen-32B-Base模型,重点关注数学、代码和STEM数据,最终得到了模型DeepSeek-R1-Zero-Qwen-32B。然后,将这个模型与蒸馏模型DeepSeek-R1-Distill-Qwen-32B进行了比较。

RL训练模型表现:DeepSeek-R1-Zero-Qwen-32B在经过大规模RL训练后,达到了与QwQ-32B-Preview相当的性能。蒸馏模型优势:DeepSeek-R1-Distill-Qwen-32B在所有推理基准测试中显著超越了DeepSeek-R1-Zero-Qwen-32B。

效率与未来方向

通过这次比较,DeepSeek-AI得出了两个关键结论:

蒸馏效率:蒸馏是一种极其高效的方法,能够赋予较小的模型强大的推理能力。将已学习的推理模式从大模型转移到小模型,远比通过RL从零开始在小模型上训练推理更为高效(在所采用的规模下)。AI的未来:尽管蒸馏使得高性能推理模型更加易于访问,推动AI的边界可能仍需要开发更强大的基础模型,并进一步探索大规模的RL。蒸馏今天使得先进的AI更加可获取,但要追求更高的智能,可能仍需要扩展模型大小和学习范式,如RL。

结论

DeepSeek-R1为推理能力强大的大语言模型(LLMs)的发展提供了一个引人注目的范式转变。通过将强化学习作为核心训练机制,DeepSeek-AI展示了推理可以被直接学习和优化,而不仅仅是作为规模效应的副产品。多阶段训练过程及其后续蒸馏的成功,强调了这一方法的强大。DeepSeek-R1的方法提供了未来研究的宝贵蓝图,为构建更强大、真正智能的AI系统指明了前进的方向。

参考文献

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948v1.Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv:1409.0473.Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv:1503.02531.Ranzato, M., Chopra, S., Auli, M., & Zaremba, W. (2015). Sequence to sequence learning with recurrent neural networks. arXiv:1409.3215.Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv:1707.06347.

来源:老胡科学

相关推荐