纯RL破局!DeepSeek-R1 登上《Nature》 性能逼近GPT-4o

B站影视 内地电影 2025-09-24 09:21 1

摘要:在人工智能领域,大语言模型(LLMs)的推理能力始终是衡量技术突破的核心指标之一。传统方法多依赖人类标注的推理轨迹或特定提示策略,虽然能够在任务当中取得一定的成绩,但却受限于标注成本与人类思维边界。

在人工智能领域,大语言模型(LLMs)的推理能力始终是衡量技术突破的核心指标之一。传统方法多依赖人类标注的推理轨迹或特定提示策略,虽然能够在任务当中取得一定的成绩,但却受限于标注成本与人类思维边界。

近日,由 DeepSeek-R1系列模型,通过纯强化学习(RL)框架,实现了无需大量人类推理标注即可自主进化高级推理能力,为大模型推理能力提供了一定的参考。目前该论文已发表在《Nature》期刊,DeepSeek创始人梁文锋为该论文的作者之一。

1►DeepSeek-R1 以纯强化学习突破大模型推理瓶颈

长期以来,大模型推理能力的提升高度依赖两种技术路径:一是链式思维(CoT)提示,通过设计 “逐步思考” 的示例或指令,引导模型生成中间推理步骤;二是监督微调(SFT),利用大规模人工标注的推理轨迹,让模型模仿人类思考过程。然而,这两种路径均存在难以突破的瓶颈,成为制约大模型推理技术规模化应用的关键障碍。

DeepSeek-R1的多阶段流程

从技术局限性来看,传统方法首先面临标注依赖与扩展性难题。无论是 CoT 提示所需的 “少样本示例”,还是监督微调依赖的 “多步推理轨迹”,均需人工设计与标注。以数学竞赛题或复杂编程任务为例,标注一条完整推理轨迹可能需要数小时,且难以覆盖多样化的问题场景,导致技术落地成本高、效率低,无法适配大规模、多领域的推理需求。其次,传统方法存在人类思维边界的限制。模型被要求严格模仿人类提供的推理路径,无法探索超越人类认知的非传统解法,例如在数学证明中,人类习惯用某一固定思路推导,而模型可能存在更简洁的推理逻辑,但受限于标注示例,这种潜力无法被激发,最终导致模型性能被 “锁定” 在人类认知上限内。

正是基于上述困境,研究团队提出了核心目标:构建一套纯强化学习框架,让模型在极少依赖人类标注的前提下,通过自主试错与优化,发展出反思、验证、动态策略调整等高级推理能力;同时,兼顾模型的推理性能与通用任务适配性,解决早期版本中可读性差、多任务表现不均衡的问题,最终实现 “高效、自主、通用” 的大模型推理能力突破。

2►技术架构解析:GRPO 算法与多阶段训练破解痛点

DeepSeek-R1 的技术成果并非一蹴而就,而是经历了从 “基础版” DeepSeek-R1-Zero 到 “完整版” DeepSeek-R1 的迭代优化。两个版本在设计逻辑上一脉相承,均以强化学习为核心,但在目标侧重与技术细节上各有突破,共同构成了完整的技术体系。

DeepSeek-R1-Zero作为纯强化学习思路的首次落地,核心设计围绕 “无约束激发模型自主推理” 展开。其基础模型选择 DeepSeek-V3 Base,强化学习框架采用 Group Relative Policy Optimization(GRPO)—— 这一算法相比传统的近端策略优化(PPO),无需单独训练价值网络,可通过组内奖励分布直接计算优势值,大幅简化训练流程并降低计算资源消耗。

在奖励信号设计上,研究团队刻意弱化对 “推理过程” 的干预,仅保留两类核心奖励:一是准确性奖励,通过最终预测结果与真实答案的一致性判断(如数学题验证答案正确性、编程题通过编译器执行测试用例打分);二是格式奖励,要求模型将推理过程与最终答案分别用指定标签包裹,确保推理逻辑的可解读性。更关键的是,该版本跳过了传统的监督微调阶段,研究团队指出,这一选择的核心假设是 “人类定义的推理模式可能限制模型探索,而无约束的强化学习训练能更好地激励模型涌现新的推理能力”。

在实际训练中,DeepSeek-R1-Zero 展现出显著的自主进化特征:随着训练步数增加,模型会自主延长响应长度,从初始的数百 token 扩展至数千甚至数万 token,自然融入验证、反思等推理行为,为后续优化奠定基础。

尽管 DeepSeek-R1-Zero 在推理性能上表现突出,但研究也发现其存在明显缺陷:一是语言混合问题,由于基础模型 DeepSeek-V3 Base 以中英文训练为主,模型在生成推理过程时偶尔会出现中英文混杂的情况,影响可读性;二是通用任务适配性弱,在写作、开放域问答等非推理任务中,性能远低于专门的指令微调模型。

为此,研究团队设计了多阶段训练流程,推出了优化版本 DeepSeek-R1。该流程分为四个关键阶段。

第一阶段为冷启动数据收集,收集数千条符合人类对话习惯、推理过程清晰的标注数据,为模型注入基础的 “人类对齐” 思维逻辑。

第二阶段为首次强化学习训练,在 GRPO 框架中新增 “语言一致性奖励”,通过计算响应中目标语言词汇的占比,引导模型生成纯目标语言输出,解决语言混合问题。

第三阶段为拒绝采样与监督微调,通过拒绝采样筛选高质量推理输出,并融合推理与非推理数据集进行监督微调,提升模型在写作、问答等通用任务上的表现。

第四阶段为二次强化学习训练,融合两类奖励信号 —— 针对推理任务的规则化奖励(准确性 + 格式)与针对通用任务的模型化奖励(有用性 + 无害性),最终实现推理能力与通用能力的平衡。

3►DeepSeek-R1 性能接近 GPT-4o!推理模式自主进化

研究通过大量实验验证了 DeepSeek-R1 系列模型的有效性,不仅在关键基准测试中超越传统模型与人类水平,更涌现出自主进化的高级推理模式,成为研究最具创新性的成果。

DeepSeek-R1 在不同训练阶段的成绩

在性能表现上,DeepSeek-R1在可验证任务中展现出显著优势。以数学推理领域的核心基准 ——2024 年美国数学邀请赛(AIME)为例,DeepSeek-R1-Zero 的 Pass@1 准确率从训练初始的 15.6% 提升至 77.9%,若采用自一致性解码策略,准确率进一步提升至 86.7%,大幅超越人类参赛者的平均水平(约 50%)。

在编程推理领域,模型表现同样亮眼:在 Codeforces 平台(全球知名编程竞赛平台)的评级中,DeepSeek-R1 从基础版的 1444 分跃升至 2029 分,达到专业程序员水平;在 LiveCodeBench 任务(综合编程能力测试)中,其 Pass@1-CoT 准确率从 50.0% 提升至 65.9%,超越同规模传统指令微调模型约 20 个百分点。

即使在综合推理任务中,DeepSeek-R1 也表现突出:MMLU-Pro(高级多任务语言理解基准)准确率达 84.0%,IF-Eval(指令遵循评估)的 Prompt Strict 得分达 83.3%,Arena-Hard(硬指令对抗测试)得分达 92.3%,研究中指出这些指标已接近或超过 GPT-4o(2024-05-13 版本)的水平,充分证明了纯强化学习框架的优越性。

更值得关注的是,DeepSeek-R1 系列模型在训练过程中自主进化出高级推理模式,这一现象突破了传统模型 “被动模仿人类” 的局限。

随着训练步数增加,DeepSeek-R1-Zero 的响应长度呈稳步增长趋势,证明模型会根据问题复杂度自主 “增加思考时间”—— 面对简单任务(如基础算术题),模型仅生成数十 token 的简洁响应;面对复杂任务(如多步骤几何证明),则生成数千 token 的详细推理过程。

研究还发现,训练后期模型频繁使用 “wait”“verify”“check” 等反思性词汇,出现类似人类的 “顿悟时刻”:例如在解方程式时,模型会突然停下标注 “Wait, wait. That’s an aha moment”,随后重新检查前序步骤并修正计算错误。

训练 8000 步之后,“wait” 等反思词汇的出现频率显著提升,标志着模型推理模式从 “线性推导” 向 “动态验证” 的质变。

此外,模型还会自主探索多种解题路径,例如在数学证明中尝试不同定理应用,在编程任务中设计多组测试用例验证代码正确性,这些行为均为强化学习过程中自然涌现,而非人工设计或引导。

4►技术仍然存在短板 DeepSeek-R1主要面临四类挑战

一是结构化输出与工具使用能力薄弱。模型难以生成严格结构化的内容(如对齐公式、规范表格),且无法调用搜索引擎、计算器等外部工具,在需要实时数据支持或复杂计算的任务(如实时股票分析、高精度物理计算)中表现受限。

二是 token 效率有待优化。面对简单任务时,模型仍可能出现 “过度思考” 现象 —— 例如回答 “今天星期几” 时,生成大量无关的日期计算逻辑,浪费 token 资源并延长推理时间。

三是多语言推理适配性差。由于基础模型 DeepSeek-V3 Base 以中英文训练为主,模型在处理日语、法语等非中英文查询时,仍可能生成中英文混合响应,无法满足多语言场景需求。

四是奖励黑客风险。纯强化学习依赖可靠的奖励信号,对于写作、创意设计等难以用规则量化的任务,若采用模型化奖励(而非规则化奖励),可能出现模型 “欺骗” 奖励模型的情况 —— 例如生成冗长但无意义的内容以获取高分,影响输出质量。

针对上述局限性,研究团队提出了明确的未来研究路径。

研究团队提出了明确的未来研究路径,首先,针对工具使用能力薄弱的问题,计划构建工具增强型强化学习环境,让模型在推理过程中自主判断是否调用搜索引擎、编译器、计算器等外部工具,并通过工具反馈实时优化推理策略,以此提升复杂任务的处理能力。

在此基础上,为解决 token 效率问题,将设计动态 token 分配机制:通过预先判断问题难度(如结合问题长度、领域分类等特征),灵活控制推理过程的 token 长度,避免对简单任务 “过度思考”,从而优化计算资源的利用效率。

5►DeepSeek-R1三大核心价值:降本、破局、小模型部署

DeepSeek-R1 实现大模型推理技术突破,核心行业价值集中在三方面:它降低标注依赖,传统模型需数万条人类标注推理轨迹,该模型仅用 “问题 + 正确答案” 实现高级推理,标注成本降超 90%,团队已公开相关模型及代码(https://github.com/deepseek-ai/DeepSeek-R1),为低资源场景提供支持以推动技术规模化应用。

同时,它突破人类思维局限,自主进化出多路径验证,动态策略调整模式,在数学证明中采用反向推导 + 中间验证、编程任务中设计模块化测试方案,均优于人类传统思路,为科学计算、复杂工程提供新解法,助力AI从模仿人类转向辅助突破认知边界。

此外,通过知识蒸馏技术,其衍生的小模型参数为原模型 1/10,在 AIME、Codeforces 测试中超越同规模传统模型,高性能+低资源特性使其可部署于边缘设备,为智能教育、工业质检等场景提供低成本解决方案。

论文地址:https://www.nature.com/articles/s41586-025-09422-z

来源:具身智能大讲堂

相关推荐