DeepSeek 的论文读起来就像一首码农诗

B站影视 2025-02-09 15:51 3

摘要:DeepSeek 之前,国内大模型公司各种刷榜,也是内卷得一塌糊涂,也都刷榜刷到了世界先进水平,但没有哪家做到了 DeepSeek 这种硬气、震撼和让人服气。一鸣惊人天下知。 论文也写得漂亮、亲民,看上去、读起来就像一首码农诗。没有任何故作高深的玄乎和遮蔽。简

DeepSeek 的论文读起来就像一首码农诗

DeepSeek 之前,国内大模型公司各种刷榜,也是内卷得一塌糊涂,也都刷榜刷到了世界先进水平,但没有哪家做到了 DeepSeek 这种硬气、震撼和让人服气。一鸣惊人天下知。 论文也写得漂亮、亲民,看上去、读起来就像一首码农诗。没有任何故作高深的玄乎和遮蔽。简单、平实,但那种底气也算是力透纸背。有一种工程美,还能感受到情怀。邪门。应该推举为年度 best paper(最佳论文)。

好,奇文共欣赏,咱们就坐下来读。

R1 论文读下来,原来被 OpenAI 从 q* 开始到 o 系列,搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程,一下子就变得清晰简单多了。

他们的主要发现是:

不用人造强化数据做监督学习微调(sft),利用多答案采样选优的再生数据来 " 硬做 " 强化学习,也一样可以学到慢思维的推理能力,这就是他们的 DeepSeek-R1-Zero,实际上是 follow Alpha-Zero 的思路。AlphaZero 在围棋这种非常单纯狭窄的场景,可以把 Zero 进行到底,排除了人类 / 人为的数据,最终成为绝对王者。

在更广一点的数学、代码和某些逻辑问题的推理场景,他们最终发现还是借助少量的 sft 人工数据更好。但也不过就是几千条的数据,做推理 sft 的 " 冷启动 ",人工准备一点也不难。这就是他们的 DeepSeek-R1。

他们的 Zero 也走通了,达到了 OpenAI-o1-0912 的水平(o1 的 9 月 12 日版本?)。之所以做 R1, 加入了 sft 冷启动的步骤,主要是因为机器完全自主学习出来的 Zero 的推理步骤可读性差、里面还混杂了不同的语言表达方式,这对进一步改良这个系统造成困扰,毕竟模型要 " 以人为本 ",服务开发者和用户的。最终炼成的 R1 推理表现进一步提升,达到 OpenAI-o1-1217 (估计是 12 月 17 日版本的 o1)的水平。

DeepSeek 是化繁为简的大师

他们的创新和探索精神表现在,当 community 把 sft+rl 当成是后训练范式的时候,他们做 Zero,完全排除人工数据,验证了纯粹的 rl 对于推理能力的学习潜力。从 Zero 首先是学到了信心,体验了探索创新者的 aha moment,然后再回头加一些用于冷启动的高质量人工数据 sft,再做实用的 R1 就有底气了。两个模型都开源,供人研究和验证,做得煞是漂亮。

强化学习中,直接砍掉了应该与 policy 模型平行迭代的 critic 模型,代之以简单的 GRPO。critic 是评估每个步骤的价值模型,砍掉了等于是训练中一下子降低了一半的资源耗费。需要单独训练的奖励模型也省掉了,代之以简单的规则奖励。

咱们先看看 GRPO ( Group Relative Policy Optimization,分组相对策略优化 ) 是什么创新,为什么 GRPO 算法可以平替 Actor-Critic 架构的 PPO 来优化模型。本质上,GRPO 是一个无需 critic 模型的 PPO 变体。它通过组内统计计算优势值,而不是用 critic 网络评估价值。

具体说,GRPO 要求每个问题生成多个答案,形成一组,组内答案相互比较,计算每个答案的 " 好坏程度 " ( 优势值 ) :

优势值 = ( 当前答案的得分 - 组内平均分 ) / 组内标准差

假设一道数学题,生成 4 个答案,得分分别是 : 90, 80, 70, 60 分;平均分 = 75。90 分答案的优势值 = ( 90-75 ) / 标准差。高于平均分的答案获得正优势值,反之为负。这样就不需要额外的评判模型 ( Critic ) ,通过组内比较,模型就知道哪些答案更好,强化学习的优化目标就是要提升生成好答案的概率。

GRPO 算法的优点 :

训练效率高:不需要额外的 critic 模型,节省了大量计算资源。

训练稳定性好:用 clip 限制更新幅度,防止过度优化

实施简单:算法简单,易于实现。

GRPO 简单易行又有效,为什么传统的强化学习要用 critic 模型呢?Actor-Critic 架构有其优势,包括:

全局评估:不受限于当前组内比较,可以评估答案的绝对质量

可学习复杂奖励:比如用户偏好、安全性等难以用规则定义的指标

单个答案也能评估:不需要同时生成多个答案

场景优势:早期 RL 主要用于线条很长的游戏和机器人,需要 critic 学习长期奖励

但 GRPO 表明,对于明确的任务(如数学、coding 和逻辑题),只要能规模化做大强化学习,简单的组内比较也能达到模型优化的同样效果。这是强化学习 " 多快好省 " 的重要发现。

至于奖励模型,他们在 Zero 训练中完全弃之不用,而是用简单直接的奖励规则代之。只是在 R1 训练最后阶段的偏好对齐任务上(不是推理任务),才按照 RLHF(人类反馈强化学习)的常规使用了 reward model(实际是对于自己基座模型 V3 中的奖励模型的复用)。原因如前所述,是人类偏好 ( 如安全性、有帮助性等 ) 涉及复杂的价值判断,难以用简单规则量化。对这类评估,还是沿用训练过的 reward model 来模拟人类判断。但推理任务,他们的探索表明完全可以只用简单的奖励规则 -- 因为正确性判断相对明确:math 有答案,code 可以编译和执行 unit testing。

还有什么能简化的,他们没有简化?

强化学习中的难缠的痛点之一是所谓过程奖励 Process Reward Model ( PRM ) ,就是深入到推理的每一步去评估。对此他们是 " 知难而退,敬而远之 ",干脆绕过去:DeepSeek 的强化是结果导向,不深究过程。论文说明他们选择不使用 PRM 的原因如下:

难以明确定义推理中的每个细节步骤 (难:绕过去)

难以判断中间步骤的正确性 (难:绕过去)

重新训练 reward model 需要额外资源,使流程复杂化 (复杂:能简则简)

模型评估会导致 reward hacking:即神经模型可能学会欺骗奖励模型

就最后一条是出于神经模型本性上的短板考量,主要原则还是能简则简,能绕则绕。所以说,他们选择简单的规则奖励 + 答案验证的方案,是一个有意识的权衡选择。

就是说,明明简单的规则就可以确定奖励指向,为什么要训练叠床架屋的奖励模型呢?不过是查一下答案或测试一下 code,判定结果的对错,加上判定格式是不是符合规范。R1 主打的奖励刺激属于规则绑定:例如,答案正确,奖励 +1 分;格式正确,奖励 +0.5;答案错误," 奖励 "-1 分;答案不具体,奖励 0 分。

当然,这样做,在把推理拓展到数学、代码以外的任务的时候,可能行不通。但目前大家发力的重点主要就是数学和代码,而更加狭窄的长线条棋类和游戏场景,基本被传统 RL 攻克。尽管如此,绕过过程奖励仍然可能是潜在的软肋,理论上给结果正确,过程逻辑混乱留下了空间。

只关注答案对错,不问过程是怎么强化出长线条的复杂推理过程的呢?门道就在筛选答案的时候偏向于长答案,随着训练这就自然增加了 test time compute ,发展出对于复杂推理的应对能力。这使得 R1 的强化学习更易自主探索推理路径,成就了 DeepSeek 的这次突破和出圈。

与 GPT 的 next token prediction(ntp) 规模化以后可以涌现通用智能异曲同工,DeepSeek 那帮年轻人发现,只要结果明确可判定,结果导向的强化学习可以自然涌现出复杂的内部推理能力,因为正确的结果需要推理。这个发现的意义,对于领域今后的深度推理的推进非同一般,可媲美 GPT 系列预训练时发现的 scaling law。

头部推理模型 R1 的训练四阶段

1. 推理冷启动:

利用数千条高质量人工推理数据,例如:

# 收集高质量示例

Question: 求解方程 x^2 + 2x + 1 = 0

1. 识别这是一个二次方程

2. 系数 : a=1, b=2, c=1

3. 使用求根公式 : x = ( -b ± √ ( b^2-4ac ) ) /2a

4. 代入 : x = ( -2 ± √ ( 4-4 ) ) /2

5. 化简 : x = -1

x = -1

2. 推理强化学习

结果导向,再生数据的模版 " 留白 " .........

设计简单模板让模型自主再生训练数据:

思考过程 答案

模型生成多个答案 -> 筛选正确答案 -> 加入强化学习的训练集

不添加任何人工偏见或策略提示,留下 RL 自主学习推理过程的空间:

逐渐增加思考时间(test time compute)和 tokens 量,模型就自发涌现反思步骤等推理能力,这就是论文作者描述的 aha moment,令人动容的见证

GRPO 算法采样多个答案,通过内部对比来优化模型

规则奖励:奖励答案正确 + 格式规范

前面提到,系统只验证最终答案,理论上无法保证中间推理步骤的正确性(可能学到 " 答案对但推理错 " 的模式),但实践似乎显示,只要强化学习足够充分和规模化,答案正确会自然导向推理步骤的正确性。根据 K 氏复杂性(Kolmogorov complexity)压缩理论,正确的推理导向正确的答案才是可靠解决方案的 " 最短程序 ",这是无损压缩的终极目标。后训练强化学习的过程与预训练一样,都是对无损压缩的逼近。模型再生数据的 Input 来自两个源头:1 人工设计的数学题 / 编程题;2 公开基准测试题 ( 如 AIME ) 。DeepSeek 的探索再次表明,简单即美,scale 为王。

(一简遮三丑,你是服也不服 ? LOL)

天机就是,scale 是硬道理。简单架构 / 算法有利于真正的 scale up,只要目标清晰,一旦 scale 了,一切就自然搞定。

训练数据的源头

模版再生数据的 input 应该是来自两个源头,1 人工设计的数学题 / 编程题;2 公开基准测试题 ( 如 AIME ) 。

Output 流程:

Input: x^2 + 2x + 1 = 0 Model 生成多个答案 :

AnsweR1: [ 推理过程 1 ]

x = -1

Answer2:

[ 推理过程 2 ]

Answer3:

[ 推理过程 3 ]

x = 2

筛选 : - 保留 AnsweR1、2(答案正确) - 丢弃 Answer3(答案错误)

保留的答案作为推理再生数据加入训练集用于下轮迭代。所有再生训练数据都需要标准答案来评估正确性,这在来源中就给定了:

数学题:确定的数值答案

编程题:通过测试用例验证

逻辑推理:有明确的正确结论

有标准答案是规则奖励能工作的基础。对没有标准答案的任务 ( 如写作 ) ,需要用其他方式评估质量,例如使用奖励模型。

3. 综合性微调

800k 条训练数据,其中推理 600k, 其他任务 200k

论文没说为什么按照这个比例选取微调数据,应该是根据经验。600k 推理数据是再生的,用的就是阶段 2 的推理模型。但这里有一个值得注意的插曲:在阶段 2 的推理强化学习中,再生数据必须是奖励规则可以判定的。但阶段 3 的推理数据,却突破了这个限制。阶段 3 的推理数据增加一些 reward rule 不能判定的 cases,既然简单的奖励规则无法判定,就找 V3 模型来判定。好像是说,当一道推理题(数学、coding 或逻辑题)生成 n 个奖励规则难以评判优劣的结果的时候,就把这些结果和标准答案送给 V3,让 V3 做裁判。

另外的 200k 数据呢?一部分是拿来主义,直接从他们自己的 V3 的原始 finetune 训练数据中选取;另一部分让 V3 生成数据,但要求 V3 不仅给答案,还要给思维链过程(就是要求它 step by step 输出结果)。这可以理解,这里虽然不是纯粹的长线条推理题,其他任务很多时候也是要有条理的。

4. 全局强化学习:

这最后的强化学习很像是早就使用过的 RLHF,更注重人类偏好的对齐。但为了防止推理退化,在偏好对齐的同时,也强化了推理,用的还是规则奖励。而人类偏好对齐用的则是 V3 原有的奖励模型(这是唯一真正用到的奖励模型)。

整个过程还是相当清晰的,原则上可复现。

用 R1 再生数据去蒸馏小模型,提升其推理能力

最后,Deepseek 的 R1 推理强化工作在蒸馏开源小模型方面也做得很牛,干翻了 openAI 的 o1-mini 小模型。展示给世人看,开源 LLMs 开始全面逼近闭源模型。

但话说回来,没有这些巨烧钱的闭源模型在前面开路,并建立标杆,后来者也容易失去方向。现在这种局面非常好:让有钱的去砸银子。在金钱的赋能和压力下,不断开疆拓土。让 deep" 黑马 " 们在后面紧追不舍,而且还追赶得特别牛气。

令人印象深刻的是,R1 不是仅仅大幅度提升了推理能力(慢思维),在 " 传统 " 的知识能力方面比起它的基座模型 V3 也有显著提升。这可能是因为,推理能力的增强对于一些传统任务具有正面作用,但更应该归功于他们探索出来的四阶段训练 R1 的 pipeline。

最后总结一下。

主要创新点 :

1. DeepSeek-R1-Zero: 首个仅通过强化学习 ( RL ) 训练的推理模型 , 无需人工推理数据的监督微调 ( SFT ) 。展示了模型可以纯靠 RL 自主发展出推理能力。

2. DeepSeek-R1: 在 R1-Zero 基础上做以下改进 :

- 后训练阶段先用少量高质量数据进行冷启动 SFT

- 采用 4 阶段的后训练流程,两次 SFT,两次 RL

- 性能可与 OpenAI-o1-1217 相媲美

3. 蒸馏技术 : 成功将推理能力迁移到一系列开源小模型 :

- 1.5B 参数的模型就超越了 GPT-4 在数学方面的表现

- 32B 和 70B 的模型创造了密集模型的新记录

关键技术细节 :

- 使用 GRPO ( Group Relative Policy Optimization ) 算法,舍弃 Critic 模型

- 采用基于规则的奖励系统 , 舍弃奖励模型 PRM

- 设计特定的训练模板引导模型再生数据进行自主学习:

is all we need for reasoning!

【笔者后记】

这两天莫名很兴奋。跟 deepseek 纠缠不休,今天才缓过气来 lol

硅谷老友群也热议不断:

Hongtao:

DeepSeek 若不快速大融资和上市, R1 的 18 位主要贡献者估计很快就被国内外大厂抢光了。

当年 DeepMind 被迫卖给 Google,因为 founders 被告知若不卖,就高薪挖人。挖走一两个作者,就少走大部分弯路了。

主要还是幻方的 AI 量化投资受挫, 因势利导做 deepseek 成功;开源后,国内外大家都沿着这路子去试。若不财大气粗起来,优势恐怕难以为继。

超大模型训表征,

开源一蹴而就成。

强化学习各求精,

蒸馏定制缩小型。

内卷已经卷出墙,

硅谷 AI 圈被激荡。

OpenAI&Meta 领头羊,

都被鞭策加速闯。

硅谷不眠夜:DeepSeek 为何震动美国科技界?

Nick:复现 DeepSeek 貌似很容易。其实强化学习大家也都想到过,过去总觉得可能要花很多算力,少人试。貌似 o1 就是强化学习练出来的,但一些推理 token 他们没 open(开源)。这可能迫使国内头部那两家加速上市过程。

立委:这类团队属于中华之光,国之重器。

他们写得基本够清晰了。让人担心他们下一步怎么保持这个势头和地位。很多神秘就是一层窗户纸。最大的功劳是他们同时也差不多捅破了 o 系列神秘面纱的窗户纸。

Nick:马上融一大笔钱,突击上市。除非手里还有更硬的牌。

马老师:好几家复现了 deepseek,各家再各自探索,相信会是快速迭代的过程,有望再一次大发展。

Nick:也是个试金石,倒逼 OpenAI 看看还有啥新东西,是骡子是马拉出来溜溜。

Hongtao:给 OpenAI 压力;更是叫板 Meta, 争夺开源盟主地位

鲁总:OpenAI 的牌越来越少了。但 SamAltman 希望通过心理战误导大众。之前发文强调过程奖励,O1 出来时放烟幕弹让人相信推断时使用复杂的搜索 ... 结果都应该没有用。

香港科技大学的团队说是也独立发现了 RL 涌现推理能力,不过只针对数学问题求解,但也特别指出使用输出格式奖励。

白老师:数学能力和编程能力是相通的。

不请贵的人是成功的很重要因素。

施总:哈哈。贵的不一定能干,能干的都比较贵。

刘总:主要是要用年轻人,岁数大的没戏。岁数大了,思维僵化,精力不行。当然,我说的是统计规律,个例总是有的。

立委:deepseek 不是常态,是冒尖。但 deepseek 这么一捅窗户纸,很多人就跟上了。不知道 它还有多少宝贝没有显露。否则逐渐暗淡下去也不是不可能的。

deepseek 之前,各种刷榜,也是内卷得一塌糊涂,也都刷榜刷到了世界先进水平。但没有哪家做到了 deepseek 这种硬气 震撼 和让人服气。一鸣惊人天下知。

Nick:估计每家都会短期内在数学能力上长足进步。豆包上周一周内就进步不小。窗户纸捅破,门槛也不是那么高。大概率 o1 也是这么做的,只不过内帮孙子比较鸡贼。

Liren:DeepSeek-R1 告诉大家,你们都被 PRM 和 MCTS 误导了,其实只需要一个 标签就够了。

Nick:是啊,你写篇文章," is enough"

立委:就是留白。你留了白,系统就会给自主填上。

zero 的实践表明,根本不用想那么复杂,还要考虑怎么从各种不同推理任务中找到共同的思维链 patterns,等等。甚至也不管里面的逻辑是不是胡说八道,结果导向,最终,推理还是学出来了。预训练靠的是简单的 next token prediction,后训练推理靠的就是结果导向的强化自主学习。设计一个简单的模版就搞定了无穷的再生推理数据。

Nick:是啊,有了 ToT 和 Gemini,话都在嘴边了。

Liren:增加在推理时的 tokens 来提升思考时间。

立委:秘方就是 4 步走:1 冷启动 2 强化 3 微调 4 再强化。zero 干脆省掉了 1 3 4,所以显得过于生猛,但 beautifully 证明了 " 硬启动 " 的强化学习也能涌现高级推理能力。R1 就是完善后训练的节奏和数据配比。很多应该就是经验,是摸索出来的 best practice,他们肯定有过很多其他失败的尝试,但还是摸着石头过了河。

马老师:感觉就是碰运气,不过沿着别人路走的永远没有运气。

立委:我觉得他们还有一些东西,所以才 " 肆无忌惮 "。等于是他们推出了一个菜谱,这个菜谱做的菜比肩世界一流。但他们其实还有其他的菜谱,更高级,但不急于拿出来?

不是大道至简,而是大模型本身已经具备了强大的推理能力,它需要的只是:

1 足够的思考空间 / 时间 /tokens 量( 标签)

2 正确的反馈信号(答案正确性)

3. 探索优化的机会(GRPO 采样选优)

复杂、难产、费力的 PRM(过程奖励模型)和 MCTS(蒙特卡洛树搜索路径空间)反而限制了模型的自主探索。这说明大模型的能力被我们低估了。

deepseek 的成功的先决条件是 v3,他们自己做出了世界前列的头部基础模型,他们自己知道怎么善用它的潜力。如果是借助于外部基础模型 GPT4o,就很难这么快做出 R1,很多 v3 的资源和 practice 就在 R1 过程中直接借用了。

马老师:在理。

Nick:So what's next? assuming everybody will have as strong math capabilities within a month(那接下来会怎样?假设在一个月内每个人都会拥有同样强大的数学能力)

立委:AI for science?机器自动证明百年难题啥的;机器自动发明新药 ......

Nick: only two problems matter: Riemann Conjecture and P vs NP(只有两个问题是真正重要的:黎曼猜想和 P vs NP 问题 )

马老师:大厂也许会用更大的模型,更多的数据,继续向大上走。

Nick:那肯定。我觉得 Nvidia 的生意会更好。

立委:deep 目前为止还是在追平,是人家先树立了标杆,它去对齐。多快好省。

deep 要真牛,再上一个台阶,需要自己树立标杆和方向。但这太难了。目前为止似乎还是只有敢于疯狂烧钱 敢于无限做大的那些狂人才在开疆拓土。

来源:一粒小石

相关推荐