DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平

B站影视 2025-01-21 16:48 3

摘要:1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1,在数学、编程和推理等多个任务上达到了与 OpenAi o1 相当的表现水平,同时将应用程序编程接口(API,Application Programming Interfac

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后,DeepSeek 又发布了一项重磅成果。

1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1,在数学、编程和推理等多个任务上达到了与 OpenAi o1 相当的表现水平,同时将应用程序编程接口(API,Application Programming Interface)调用成本降低了 90-95%。

更重要的是,这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。

英伟达高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型,还公开了所有训练细节。

他们可能是首个展示出强化学习飞轮效应,并实现持续增长的开源项目。影响力的展现不一定要靠‘内部实现了 ASI’或‘草莓计划’这样神秘的名号,有时候直接公开原始算法和学习曲线同样可以产生深远影响。”

图丨相关推文(来源:X)

用 1/30 的价格比肩 OpenAI o1

性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero 以及在此基础上改进的 DeepSeek-R1,在 2024 年 AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的 79.2% 水平相当。

在 MATH-500 基准测试中,DeepSeek-R1 更是以 97.3% 的成绩略微超越了 o1 的 96.4%。在编程领域,该模型在 Codeforces 平台上获得了 2029 的评分,超过了 96.3% 的人类程序员,与 o1-1217 的 2061 评分仅有小幅差距。

在通用知识评测方面,DeepSeek-R1 同样表现出色。在 MMLU(大规模多任务语言理解)测试中达到 90.8% 的准确率,虽然略低于 o1 的 91.8%,但显著优于其他开源模型。

在 MMLU-Pro 上取得 84.0% 的准确率,在 GPQA Diamond 测试中达到 71.5% 的通过率。在创意写作和问答任务上,模型在 AlpacaEval 2.0 中获得了 87.6% 的控长胜率,在 ArenaHard 评测中达到 92.3% 的胜率。

图丨 DeepSeek-R1 与其他代表性模型的比较(来源:DeepSeek)

在 API 定价方面,DeepSeek 展现出极强的性价比优势。其 API 服务对输入 token 收取 0.55 美元/百万,输出 token 收取 2.19 美元/百万,而 OpenAI o1 的收费分别为 15 美元/百万和 60 美元/百万,价格差距接近 30 倍。

纯强化学习就能实现强大的推理能力

除了性能方面的出色,R1 的开发过程也具有多处重要创新,首先是纯强化学习训练策略的突破。

传统观点认为,必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用 RL 进行能力提升。然而 DeepSeek 这项研究发现,大模型可以完全依靠强化学习获得强大的推理能力,无需任何监督式微调。

研究团队首先开发了实验性的 R1-Zero 版本。他们选择直接在 DeepSeek-V3-base 模型上应用强化学习,完全抛开了传统的监督式微调环节。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力。

以 AIME 2024 数学测试为例,模型的 pass@1 准确率从最初的 15.6% 开始,随着训练的深入不断提升。

每一轮强化学习都让模型变得更加智能,最终达到了 71.0% 的准确率,使用多数投票(majority voting)机制后更是提升至 86.7%,已经接近 o1-0912 的水平。

图丨 DeepSeek-R1-Zero 在训练期间的 AIME 准确率(来源:DeepSeek)

在这个过程中,研究人员观察到了一个有趣的现象:模型不仅在数字上有进步,更在行为模式上发生了质的飞跃。

它开始表现出类似人类的思维特征,会主动反思和验证自己的推理步骤。当发现当前的解题思路可能存在问题时,模型会停下来,重新审视之前的推理过程,然后尝试寻找新的解决方案。

这种行为完全是自发产生的,而不是通过人工设计实现的,研究人员将这一行为称之为模型的“顿悟时刻”(aha moment)。这表明模型可能已经具备了某种程度的“元认知”能力,能够对自身的思维过程进行监控和调整。

图丨 DeepSeek-R1-Zero 中间版本的一个“顿悟时刻”(来源:DeepSeek)

支撑这些突破的核心是团队开发的 GRPO(Group Relative Policy Optimization)算法框架。传统方法通常需要维护一个与主模型规模相当的 Critic 网络来估计状态值,这不仅增加了计算开销,还容易导致训练不稳定。而 GRPO 则另辟蹊径,移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。

当处理一个推理问题时,算法首先从当前策略 πθold 中采样多个输出 {o1, o2, ..., oG}。这些输出共同构成一个参考组,然后通过最大化以下目标来优化策略模型,其表达如下:

其中 Ai 表示输出 oi 的优势值,通过归一化组内奖励计算得到:

至于其奖励机制则包含三个互补的组件:评估输出正确性的准确性奖励、确保推理过程结构化的格式奖励,以及处理语言一致性的奖励信号。这三种奖励通过合理的权重组合,共同指导模型向着期望的方向演进。

例如,在数学问题中,准确性奖励来自答案的验证结果,而格式奖励则确保模型提供清晰的解题步骤。

训练模板则为整个学习过程提供了结构化的框架。它采用“思考-回答”的双阶段设计,要求模型首先在标签中展示完整的推理过程,然后才能在标签中给出最终答案。

这种设计不仅使模型的思维过程变得可追踪,还为奖励计算提供了明确的评估基准。无论是处理数学推理还是开放性问答,这个模板都展现出了良好的适应性。

这三个组成部分紧密配合,共同构建了一个有效的学习系统。通过 GRPO 框架的梯度估计,由奖励机制提供的清晰学习信号,以及训练模板确保的结构化输出,模型能够持续提升其推理能力,最终达到接近人类专家的水平。

冷启动下的强化学习

尽管 R1-Zero 在技术上取得了突破性进展,但它还存在一些问题,例如,DeepSeek-R1-Zero 在可读性差和语言混合方面存在局限。为了进一步提升模型性能,研究团队继续探索了 DeepSeek-R1,开发出一个完整的四阶段训练流程。

首先是冷启动阶段。团队收集了数千个高质量样本用于初步微调,这些样本来源广泛:一部分通过 few-shot 提示获取,包含详细的解题思路;另一部分来自 R1-Zero 的优质输出,经过人工筛选和标注;还有一部分是专门设计的复杂推理案例。这个阶段的关键是确保数据质量而不是数据量,为后续的强化学习奠定良好基础。

第二阶段是面向推理的强化学习。这个阶段继承了 R1-Zero 的训练框架,但做了重要改进。首先是引入了语言一致性奖励,这个设计源于一个实际问题:在多语言环境下,模型容易在推理过程中混用不同语言。通过计算目标语言单词的比例作为奖励信号,有效地解决了这个问题。

同时,团队对推理密集型任务进行了特别优化。在数学问题中,他们设计了基于规则的验证机制;在编程任务中,则使用自动化测试来评估代码质量。这些针对性的优化显著提升了模型在专业领域的表现。

第三阶段是拒绝采样与监督微调。这个阶段的创新之处在于使用已训练的 RL 模型来生成新的训练数据。团队采用了一个重要的筛选标准:只保留那些不仅答案正确,而且推理过程清晰的样本。这确保了数据的高质量,同时也保持了模型的推理能力。

在这个阶段,训练范围也扩展到了更广泛的领域,包括写作、问答、角色扮演等。这种扩展不是简单的任务堆积,而是经过精心设计的能力构建过程。团队发现,通用领域的训练能够反过来促进模型的推理能力,形成正向循环。

最后一个阶段是全场景强化学习。这个阶段的特点是将不同类型的奖励机制有机结合:对于数学、编程等结构化任务,使用基于规则的明确奖励;对于开放式问答、创意写作等主观任务,则采用基于模型的评估奖励。这种灵活的奖励机制使模型能够在保持推理能力的同时,提升通用任务的表现。

在整个训练过程中,团队还发现了一个重要现象:大模型通过强化学习获得的推理能力具有强大的可迁移性。他们使用 R1 生成的 80 万条训练数据对不同规模的模型进行知识蒸馏,结果令人意外。

图丨 DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较(来源:DeepSeek)

最小的 Qwen-1.5B 模型在 AIME 上也达到了 28.9% 的准确率,这个成绩已经超过了一些大得多的基础模型。中等规模的 Qwen-7B 达到了 55.5% 的准确率,这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。

而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率,在 MATH-500 上达到了 94.3%,这些成绩都接近于原始的 R1 模型。这一发现具有重要的实践意义:它证明了我们可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,这为 AI 技术的实际应用提供了一条可行的路径。

目前,DeepSeek 已将模型完整开源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型(参数规模分别为 1.5B、7B、8B、14B、32B 和 70B)。这些模型均采用 MIT 许可(MIT License)发布在 Hugging Face 平台上(地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免费商用、允许任意修改和衍生开发、支持进行二次蒸馏训练。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

3.https://x.com/DrJimFan/status/1881353126210687089

运营/排版:何晨龙

来源:DeepTech深科技

相关推荐