Nature:里程碑式论文揭示 DeepSeek AI 模型的秘密兼论文原文翻译

B站影视 内地电影 2025-09-18 02:05 1

摘要:权威科学期刊《自然》杂志最新一期以封面文章的形式刊登了DeepSeek-R1论文,并在新闻报道中用“里程碑式论文揭示 DeepSeek AI 模型的秘密”,对这篇论文进行了赞扬,并表示这是世界第一篇接受严格学术审查的大模型。

权威科学期刊《自然》杂志最新一期以封面文章的形式刊登了DeepSeek-R1论文,并在新闻报道中用“里程碑式论文揭示 DeepSeek AI 模型的秘密”,对这篇论文进行了赞扬,并表示这是世界第一篇接受严格学术审查的大模型。

这标志着人工智能推理领域的一项重大突破。该研究由DeepSeek创始人兼首席执行官梁文峰担任通讯作者,展示了这家中国AI初创公司在前沿技术方面的深厚实力。

在数学运算、编程竞赛以及STEM领域研究生水平问题等复杂任务中,经过纯强化学习训练的大语言模型展现出了超越传统方法训练模型的卓越性能。这一发现颠覆了业界对AI训练方法的传统认知,证明了创新路径的巨大潜力。

研究团队的核心洞察在于质疑现有训练范式的局限性。他们认为,当前依赖人类预定义推理模式的训练方法可能反而束缚了模型的潜在能力,限制了其在推理任务中的探索空间。相比之下,不受约束的纯强化学习训练方式能够更有效地激发大语言模型内在推理能力的涌现。

通过精心设计的实验验证,DeepSeek团队成功证明了一个关键假设:大语言模型的推理能力确实可以通过纯强化学习得到显著提升。更重要的是,这种方法大幅减少了提升模型性能所需的人工标注工作量,为AI训练开辟了一条更加高效且可扩展的新路径

这项研究的意义不仅在于技术突破本身,更在于它为整个AI行业提供了全新的发展思路,有望推动人工智能推理能力迈向新的高度。该论文为开放式论文,以下为该论文原文全文翻译:

论文链接:https://www.nature.com/articles/s41586-025-09422-z

DeepSeek-R1 通过强化学习激励法学硕士 (LLM) 中的推理

通用推理是人工智能(AI)领域一个长期存在的艰巨挑战。近期以大语言模型(LLMs)¹‚² 和思维链(CoT)提示³ 为代表的突破,在基础推理任务上取得了显著成功。然而,这种成功严重依赖于大量的人工标注示例,且模型的能力在应对更复杂问题时仍显不足。本文展示了 LLMs 的推理能力可以通过纯粹的强化学习(RL)得到激发,从而无需人工标记的推理轨迹。我们提出的强化学习框架促进了如自我反思、验证和动态策略调整等高级推理模式的涌现。因此,训练后的模型在数学、编程竞赛和 STEM(科学、技术、工程和数学)领域等可验证任务上取得了卓越的性能,超越了通过传统监督学习在人类示例上训练的同类模型。此外,这些大型模型所涌现的推理模式可以被系统地用于指导和增强小型模型的能力。

推理能力是人类智能的基石,它支持着从数学问题解决到逻辑推演和编程等复杂的认知任务。人工智能的最新进展表明,当扩展到足够大的规模时,大语言模型可以表现出包括推理能力在内的涌现行为⁴‚⁵。然而,在预训练阶段实现这种能力通常需要巨大的计算资源。与此同时,另一条互补的研究路线表明,通过思维链(CoT)提示可以有效增强大语言模型的能力。该技术通过提供精心设计的少样本示例或使用“让我们一步一步地思考”³‚⁶ 这样的极简提示,使模型能够生成中间推理步骤,从而显著提升其在复杂任务上的性能。同样,当模型在后训练阶段学习高质量、多步骤的推理轨迹时,也观察到了性能的进一步提升²‚⁷。尽管这些方法卓有成效,但它们也表现出明显的局限性。它们对人工标注推理轨迹的依赖降低了可扩展性并引入了认知偏见。此外,通过限制模型复制人类的思维过程,其性能本质上受限于人类提供的范例,这阻碍了模型探索更优越的、非人类的推理路径。

为解决这些问题,我们旨在探索大语言模型在强化学习框架下通过自我演进发展推理能力的潜力,并最大限度地减少对人工标记工作的依赖。具体而言,我们基于 DeepSeek-V3 Base⁸ 模型,并使用分组相对策略优化(GRPO)⁹ 作为我们的强化学习框架。奖励信号仅基于最终预测结果与标准答案的正确性,不对推理过程本身施加任何限制。值得注意的是,我们在强化学习训练前绕过了传统的监督微调(SFT)阶段。这一设计选择源于我们的假设:人类定义的推理模式可能会限制模型的探索,而不受约束的强化学习训练能更好地激发大语言模型涌现出新的推理能力。通过这一过程(详见下一节),我们的模型(称为 DeepSeek-R1-zero)自然地发展出了多样化且复杂的推理行为。为了解决推理问题,该模型表现出生成更长回应的倾向,在每次回应中都包含了验证、反思以及对替代方法的探索。尽管我们没有明确教导模型如何推理,但它通过强化学习成功地学习到了更优的推理策略。

尽管 DeepSeek-R1-Zero 展现了卓越的推理能力,但它也面临一些挑战,如可读性差和语言混用问题,偶尔会在一次思维链回应中混合使用中英文。此外,DeepSeek-R1-Zero 基于规则的强化学习训练阶段仅专注于推理任务,导致其在写作和开放域问答等更广泛领域的性能受限。为应对这些挑战,我们引入了 DeepSeek-R1 模型。该模型通过一个集成了拒绝采样、强化学习和监督微调的多阶段学习框架进行训练,详情在“DeepSeek-R1”部分阐述。这一训练流程使 DeepSeek-R1 能够继承其前身 DeepSeek-R1-Zero 的推理能力,同时通过额外的非推理数据使模型行为与人类偏好对齐。

为了让更广泛的用户能以更低的能源成本使用强大的 AI,我们蒸馏了几个较小的模型并将其公之于众。这些蒸馏后的模型表现出强大的推理能力,超越了其原始指令微调的对应版本。我们相信,这些指令微调版本也将为研究社区做出巨大贡献,为理解长思维链推理模型的内在机制和推动更强推理模型的开发提供宝贵资源。我们已将 DeepSeek-R1-Zero、DeepSeek-R1、数据样本和蒸馏模型公开发布,详见“代码可用性”部分。

为了实现 DeepSeek-R1-Zero 的大规模强化学习,我们采用了一个高效的强化学习流程。具体来说,我们使用 GRPO⁹ 作为强化学习算法,其描述见“方法”部分的“GRPO”一节。此外,我们使用一个基于规则的奖励系统来计算准确率和格式奖励,详细方法论在“方法”部分的“奖励设计”一节中概述。同时,我们在补充信息的 2.1 节中描述了我们的高性能强化学习基础设施,以确保训练的可扩展性和效率。

具体而言,我们将强化学习技术应用于 DeepSeek-V3 Base 模型来训练 DeepSeek-R1-Zero。在训练过程中,我们设计了一个直接的模板,要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。该提示模板如下: “用户与助手的对话。用户提出问题,助手进行解答。助手首先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案分别被包含在......标签内,即此处为推理过程 此处为答案 。用户:prompt。助手:”,其中 prompt 在训练时会被具体的推理问题替换。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见,以确保我们能准确观察到模型在强化学习过程中的自然演进。

图 1a 展示了 DeepSeek-R1-Zero 在美国数学邀请赛(AIME)2024 基准测试上整个强化学习训练过程中的性能轨迹。其中,AIME 2024 的平均 pass@1(单次通过率)分数显著提升,从最初的 15.6% 跃升至 77.9%。同时,通过使用自洽性解码¹⁰,模型的性能可以进一步提升,准确率达到 86.7%。这一表现远超所有人类参赛者在 AIME 竞赛中的平均水平。除了数学竞赛,如补充图 8 所示,DeepSeek-R1-Zero 在编程竞赛以及研究生水平的生物、物理和化学问题上也取得了卓越的性能。这些结果凸显了强化学习在增强大语言模型推理能力方面的有效性

除了在训练过程中推理能力得到逐步增强外,DeepSeek-R1-Zero 在强化学习训练中还展现了自我演进行为。如图 1b 所示,在整个训练过程中,DeepSeek-R1-Zero 的思考时间表现出稳步增长,这完全是由其内在自适应驱动,而非外部修改的结果。模型利用长思维链(long CoT),逐步优化其推理过程,通过生成成百上千个词元(token)来探索并改进其解题策略。

思考时间的增加有助于模型自主发展出复杂的行为。具体而言,如扩展数据图 1a 所示,DeepSeek-R1-Zero 越来越多地展现出高级推理策略,例如反思性推理和对替代解法的系统性探索,这极大地提升了其在数学和编程等可验证任务上的性能。值得注意的是,在训练期间,DeepSeek-R1-Zero 展现出一个“顿悟时刻”(aha moment)(如表 1 所示),其特征是在反思过程中“wait”(等待)一词的使用频率突然增加(如扩展数据图 1b 所示)。这一刻标志着模型推理模式的显著变化,并清晰地展示了 DeepSeek-R1-Zero 的自我演进过程。

DeepSeek-R1-Zero 的自我演进凸显了强化学习(RL)的力量与魅力:我们无需明确地教导模型如何解决问题,只需为其提供正确的激励,它便能自主地发展出先进的解题策略。这提醒我们,强化学习在解锁大语言模型更高层次能力方面具有巨大潜力,为未来打造更自主、适应性更强的模型铺平了道路。

尽管 DeepSeek-R1-Zero 展现了强大的推理能力,但它也面临若干问题。由于 DeepSeek-V3 Base 是在多种语言(尤其是中英文)上训练的,DeepSeek-R1-Zero 存在可读性差和语言混用等挑战。为解决这些问题,我们开发了 DeepSeek-R1,其训练流程如图 2 所示。在初始阶段,我们收集了数千条展现出对话式、与人类对齐的思维过程的冷启动数据,详情见补充信息 2.3.2 节。随后,我们应用强化学习进行训练(超参数见“方法”部分的“第一强化学习阶段训练详情”,数据详情见补充信息 2.3.1 节),以提升模型在对话式思维过程和语言一致性方面的表现。

接下来,我们再次应用拒绝采样和监督微调(SFT)。该阶段将推理与非推理数据集都纳入监督微调过程(详情见补充信息 2.3.3 节),使模型不仅能在推理任务中表现出色,还能展现出先进的写作能力。为进一步使模型与人类偏好对齐,我们实施了第二阶段的强化学习,旨在增强模型的有用性(helpfulness)和无害性(harmlessness),同时进一步优化其推理能力。奖励模型在“方法”部分的“奖励设计”一节中描述,强化学习超参数在“方法”部分的“第二强化学习阶段训练详情”一节中说明。总训练成本列于补充信息 2.4.4 节。

我们在以下基准测试上评估了我们的模型:MMLU、MMLU-Redux、MMLU-Pro、DROP、C-Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、CLUEWSC、AlpacaEval 2.0、Arena-Hard、SWE-bench Verified、Aider-Polyglot、LiveCodeBench(2024年8月至2025年1月)、Codeforces、中国全国高中数学奥林匹克竞赛(CNMO 2024)以及AIME 2024。这些基准测试的详细信息见补充表15-29。

表2总结了DeepSeek-R1在图2所述的几个开发阶段中的性能表现。通过比较DeepSeek-R1-Zero和DeepSeek-R1 Dev1,可以观察到指令遵循能力的显著改善,这从IF-Eval和Arena-Hard基准测试的更高得分中得到证实。然而,由于冷启动数据集规模有限,Dev1相比DeepSeek-R1-Zero在推理性能方面出现了部分退化,在AIME基准测试上表现最为明显。相比之下,DeepSeek-R1 Dev2在需要高级推理技能的基准测试上展现出显著的性能提升,包括专注于代码生成、数学问题解决和STEM相关任务的测试。而针对通用任务的基准测试(如AlpacaEval 2.0)则显示出边际改进。这些结果表明,面向推理的强化学习显著增强了推理能力,但对面向用户偏好的基准测试影响有限。

DeepSeek-R1 Dev3 将推理与非推理数据集都整合到监督微调(SFT)流程中,从而同时提升了模型在推理和通用语言生成任务上的能力。与 Dev2 相比,DeepSeek-R1 Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 评估上取得了显著的性能提升,这归因于加入了大规模的非推理语料库和代码工程数据集。最后,在 DeepSeek-R1 Dev3 的基础上,使用混合了以推理为中心和通用目的的数据进行全面的强化学习训练,得到了最终的 DeepSeek-R1 模型。由于在先前阶段已经进行了大量的针对性推理强化学习,因此在代码和数学基准测试上只有略微的提升。最终版 DeepSeek-R1 的主要进步体现在通用指令遵循和用户偏好基准测试上,其 AlpacaEval 2.0 得分提升了 25%,Arena-Hard 得分提升了 17%。

我们还在补充信息的 4.2 节中将 DeepSeek-R1 与其他模型进行了比较。模型安全性评估在补充信息 4.3 节中提供。补充信息第 5 节提供了全面的评估分析,包括与 DeepSeek-V3 的比较、在全新测试集上的性能评估、按类别划分的数学能力分析,以及对测试时扩展行为的研究。补充信息第 6 节展示了其强大的推理能力可以被迁移到更小的模型上。

随着 DeepSeek-R1 推理能力的进步,我们深刻认识到潜在的伦理风险。例如,R1 可能会遭受越狱攻击,导致生成危险内容,如炸药制造方案;而其增强的推理能力使得模型能提供更具可操作性和可执行性的方案。此外,一个开源的模型也容易受到进一步微调的影响,这可能会破坏其内在的安全保护措施。

在补充信息的 4.3 节中,我们从多个角度呈现了一份全面的安全报告,包括在开源和内部安全评估基准上的表现、在多种语言和对抗越狱攻击时的安全水平。这些全面的安全分析得出结论,与其他顶尖模型相比,DeepSeek-R1 模型的内在安全水平通常处于中等水平(与 GPT-4o (2024-05-13)³⁰ 相当)。此外,当与风险控制系统结合使用时,模型的安全水平能提升至更高标准。

我们提出了 DeepSeek-R1-Zero 和 DeepSeek-R1,它们依赖大规模强化学习来激发模型的推理行为。我们的结果表明,预训练检查点本身就蕴含着处理复杂推理任务的巨大潜力。我们相信,解锁这一潜力的关键不在于大规模的人工标注,而在于提供困难的推理问题、一个可靠的验证器以及充足的计算资源来进行强化学习。诸如自我验证和反思等复杂的推理行为,似乎是在强化学习过程中自发涌现的。

尽管 DeepSeek-R1 在推理基准测试上取得了前沿成果,但它仍然面临如下几项能力局限。

目前,与现有模型相比,DeepSeek-R1 的结构化输出能力尚有不足。此外,DeepSeek-R1 无法利用搜索引擎和计算器等工具来提升输出性能。不过,为结构化输出和工具使用构建一个强化学习环境并不困难,我们相信这个问题将在下一版本中得到解决。

Token 效率

与多数投票或蒙特卡洛树搜索(MCTS)等传统的测试时计算扩展方法不同,DeepSeek-R1 在推理时会根据手头问题的复杂性动态分配计算资源。具体来说,它用较少的 token 解决简单任务,但为复杂任务生成更多的 token。尽管如此,在 token 效率方面仍有进一步优化的空间,因为在回应较简单问题时,仍观察到过度推理(表现为过度思考)的实例。

语言混用

DeepSeek-R1 目前主要针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混用问题。例如,即使用户查询的语言不是英文或中文,DeepSeek-R1 也可能使用英文进行推理和回应。我们计划在未来的更新中解决这一局限。这个局限可能与基础检查点 DeepSeek-V3 Base 有关,该模型主要使用中英文,因此能在这两种语言的推理中取得更好效果。

在评估 DeepSeek-R1 时,我们观察到它对提示词很敏感。少样本提示(Few-shot prompting)总是会降低其性能。因此,我们建议用户在零样本(zero-shot)设置下直接描述问题并指定输出格式,以获得最佳结果。

由于评估时间过长,影响了强化学习过程的效率,大规模强化学习尚未在软件工程任务中得到广泛应用。因此,DeepSeek-R1 在软件工程基准测试上并未展现出比 DeepSeek-V3 大的提升。未来版本将通过在软件工程数据上实施拒绝采样,或在强化学习过程中引入异步评估来提高效率,以解决此问题。

纯强化学习的成功依赖于可靠的奖励信号。在本研究中,我们通过一个基于规则的推理领域奖励模型来确保奖励的可靠性。然而,对于某些任务(如写作),构建这样可靠的奖励模型非常困难。如果奖励信号是由一个模型而非预定义规则给出的,那么随着训练的进行,它变得更容易被利用,这意味着策略模型可能会找到捷径来“攻击”奖励模型。因此,对于那些无法被可靠奖励模型有效评估的复杂任务,扩展纯强化学习方法仍是一个开放性挑战。

在这项工作中,对于无法获得可靠信号的任务,DeepSeek-R1 使用人工标注来创建监督数据,并且仅进行数百步的强化学习。我们希望未来能够获得一个稳健的奖励模型来解决此类问题。

随着像 DeepSeek-R1 这样的纯强化学习方法的出现,未来在解决任何能被验证器有效评估的任务方面都蕴含着巨大潜力,无论这些任务对人类而言有多复杂。配备了这类先进强化学习技术的机器,凭借其通过试错进行迭代优化的能力,有望在这些领域超越人类的能力。然而,对于那些构建可靠奖励模型本身就很困难的任务,挑战依然存在。在这种情况下,缺乏稳健的反馈机制可能会减缓进展,这表明未来的研究应聚焦于开发创新方法,为这些复杂的、难以验证的问题定义和完善奖励结构。

此外,在推理过程中利用工具也展现出显著的前景。无论是使用编译器或搜索引擎等工具来检索或计算必要信息,还是在现实世界中使用生物或化学试剂等外部工具来验证最终结果,这种工具增强的推理整合方式都可能极大地扩展机器驱动解决方案的范围和准确性。

查看原文全文:https://www.nature.com/articles/s41586-025-09422-z

来源:人工智能学家

相关推荐