DeepSeek 三重门:小天才们,军团平推,和哲学式思想

B站影视 2025-02-04 09:04 2

摘要:新年,写下公众号第二篇。第一篇很多人看了(Sam 和 Ilya 的深层矛盾:有效加速主义 vs. 超级"爱"对齐),希望这篇也值得大家一读。

新年,写下公众号第二篇。第一篇很多人看了(Sam 和 Ilya 的深层矛盾:有效加速主义 vs. 超级"爱"对齐),希望这篇也值得大家一读。

作为相关背景从业者(北美PhD,前 Meta AI,目前AI创业),DeepSeek 带给我的震撼是巨大的。整个春节的大部分时间,我都在捧着他们的每一篇论文,一边拍大腿一边感叹:为什么这么牛X?(笑)

冷静下来思考,发现 DeepSeek 同时颠覆了中国人和美国人对创新的认识。我想这背后一定存在一种深层次的结构性能力,一种新范式,是梁文锋和团队有意或者无意间塑造的。

而这,可能才是 DeepSeek 给世界最大的启示:

DeepSeek的创新三重门:

小天才的规模化 + 华为式的军团平推 + 原创(哲学式)思想

小天才们的胜利

读 DeepSeek 的论文们(Math, V2, V3, R1, Janus),第一感觉是什么呢?一个接一个的原创研究工作,像雨点一样噼里啪啦打在你的脸上

大模型训练是一个相当复杂的软硬一体的工程,而 DeepSeek 几乎重新设计了绝大部分关键组件:MLA,GRPO,DeepSeekMoE,DualPipe,FP8混合精度,R1-Zero,MTP 等等。范围之广,密度之大,非常震撼。

从学术视角看,这些创新中很多单拿出来,都达到顶会最佳论文的水平。所以这第一重门,我们从一张图说起,DeepSeek 的小天才们

这张图很多人看过,但调研之后我发现还有很多人不在其中。其中有许多都拥有国际竞赛背景(吴作凡,任之洲,周雨杨,罗煜翔等),好多甚至是实习或者刚开始读博(DS-Math的作者邵智宏/Peiyi Wang,Zihan Wang等)。对,就是这群年轻人,创造了刚才提到的一系列技术。

小天才式的创新,更有名的例子来自于美国:GPT 的最早提出者 Alec Radford,思维链 CoT 的提出者 Jason Wei,Sora 的主力贡献者 Bill Peebles,都是初入职场,甚至没有博士训练的年轻人。

我们把这些人称之为 “小天才们”,因为他们不仅有天才般的 learn 的能力,更重要的是,他们没有 unlearn 的负担

DeepSeek 中小天才式的创新

如果给"小天才式的创新"一个定义,那就是:给定约束,寻找最优解的能力。

我们来举例 DeepSeek 的三个核心算法模块:

MLA:传统 Attention 内存占用太大,怎么办?改造 Attention 模块,通过低秩压缩,让 KV Cache 的效率达到最优。

DeepSeekMoE:传统 MoE 专家不够精细,激活参数大,怎么办?改造 MoE,通过增加共享专家和细粒度专家,大幅提升了 MoE 中的专家学习的效果。

GRPO:传统 PPO 需要训练两个模型,效率低,怎么办?通过去掉 Value Model,引入 Group-Relative 作为 baseline,大大提升了训练效率。

抛开专业术语,用人话来理解背后的模式是:一个非常优秀的工程师,遇到问题会尝试不同的技术选型,选一个最好的方案。而小天才会说:在座的都不够好,为什么不重写一个?然后写出了行业最佳方案。

这样的例子,在 DeepSeek 的文章里非常多,而每一个背后,都站着一个小天才。

小天才的规模化

相信个人,尤其是年轻人的创造力,在硅谷的文化中非常常见。或许我自己的经历可以佐证:我毕业后加入 Meta,半年后向主管提出想做一个全新的内容理解引擎。一个月后,10人左右的虚拟团队就成立了。

我想梁文锋应该从 OpenAI 的经验中参考了很多,他在暗涌的采访中,多次提到类似的观点:

他自己说过,这样的小天才式的创新,在硅谷每天都在发生。但这不能抹杀 DeepSeek 出现的意义,因为他不仅证明了中国能孕育硅谷型的创新文化,甚至还可以进一步规模化这种模式

毕竟,我们有着全世界最多的小天才们(笑)

想象一下,这样的文化,扩散到更多的创新型公司,成为主流,会是怎样的一种盛况?

这是创新的第一重门。

华为式的军团平推

如果说,DeepSeek 只是复制了硅谷的小天才模式,为什么会让那些发明这个模式的 OpenAI 们,如此紧张?这就要提到第二个关键要素。

当你深度阅读完 DeepSeek 的论文,尤其是 V3,一种新的感受会慢慢浮现:这是一个从底层硬件到上层算法的复杂大系统,以优雅的顶层设计环环相扣,以大破大立的方式平推完成。

这就是创新的第二重门:军团式的协同创新。而这,恰恰就是中国擅长的模式,也是我借用华为之名的原因。

硅谷教父 Peter Thiel,对这种创新有过一个深刻的表述。他认为一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新必须同时发生,并以一种高度协同的方式组合在一起。

他认为 Elon Musk 成功的根本,就来自于对这种协同复杂系统的追求。而 Elon Musk,也被认为某些方面是最接近中国企业的(不仅是卷,笑)。

DeepSeek 是如何平推创新的?

在第一重门,我们拿着放大镜,看 DeepSeek 在三个算法上的极致优化。但这些单点优化,也容易引入超越算法范畴的问题。

所以让我们切换视角,从更全局的视角,来重新理解 DeepSeek 的创新结构,第一条线是模型的迭代节奏(这里忽略了很多支线) :

2023年6月,DeepSeek 成立

2024年2月,发表 DeepSeek-Math,提出 GRPO

2024年5月,推出 V2,提出 MLA 和 DeepSeek-MoE

2024年11月,推出 V3,提出了 MTP 和一整套软硬一体优化方案等

2025年1月,推出 R1,提出 R1-Zero

震撼吧?从 DeepSeek-Math 的第一次推出,到最后走到 R1,不到12个月。但速度甚至都不是我们讨论的重点。

而是另一条纵向的主线:他几乎从基础设施搭建,到底层硬件优化,到模型算法创新,一整个自己重做了一套。更关键的是,他们是高度协同优化,逢山开路,遇水搭桥,充满了整体的逻辑性。我来尽最大努力,试着梳理一下:

注:不用纠结技术术语,因为我写的时候也似懂非懂。

(0) 首先构建自己的集群(萤火),为了更高效的并行训练,那就自研 HAI LLM训练框架

(1) 发现传统 Attention 的 KV Cache 开销太大,那就用 low-rank 来重新设计 MLA,缓存量下降 90% 以上

(2) 发现传统 MoE 缺乏共享专家和细粒度专家,涌现能力不够,那就设计自己的 DeepSeekMoE 解决专家精细度和共享知识问题

(3) 发现引入的细粒度专家在训练中负载均衡有挑战,那就自研专家偏好的路由算法,保证每个专家都训练充分

(4) 发现 MoE 在管线并行(大模型不同层次分卡训练)中很多通信带宽和计算带宽无法对齐,造成浪费,那自己设计 DualPipe 算法解决

(5) 为了确保上面的带宽完全对齐,直接写 PTX 这种底层语言来绕过 CUDA 限制,来精准控制 GPU SM 的数量和 Warp 数量做通信处理

(6) 发现 NVLink 和 IB 的带宽有三倍差距,那就确保 MoE 算法设计中只路由四个节点的专家,每个节点内平均访问三个专家来对齐带宽

(7) 发现 Tensor Parallelism 通信开销大,通过在 MLA 上重计算等方法释放显存来直接跳过 TP 步骤

(8) 为了进一步提升训练效率,开发了精细化的 FP8 混合精度(细粒度量化),在保证训练效果的情况下大幅减少计算和通信

(9) 为了更进一步提升训练表现,在训练过程中引入 MTP 让每次训练密度更高

(10) 为了提高 V3 的推理能力,那就拿 R1 来 distill V3 的推理

(11) 为了在强化学习中少训练一个 Value Model,开发出 GRPO

(12) 为了解决小推理模型 Self-play 推理学习的不足,就把大模型学出来的推理通过 Distill 注入到小模型里

(13) .... more

然后高潮来了:在介绍完方案的最后,V3 专门开辟章节,提出了一系列对硬件厂商设计下一代芯片的方案,包含大量的对通信,量化算子的设想。

于是我恍然大悟,在 DeepSeek 的脑海中,是把创造 AGI 这件事情,看成一个大蓝图的,而这个蓝图是没有边界的。算法?通信?数据?硬件?都在我需要解决的范畴内,而且高度协同的平推下去。我甚至觉得,如果给他们足够的精力和钱,他们会做自己的硬件,造自己的电网。

这是真正创新者的样子,就像乔布斯说过:

真正在乎软件的人,应该去制造属于自己的硬件

背后的中国元素

和小天才模式不同,这种模式恰恰是硅谷文化中相对忽视的,马斯克除外。

2019年我回国,发现字节和快手的推荐能力比 Meta 强,当时很意外。然后我开始了解到华为,到今天,以华为为代表的中国式组织,在国际竞争中释放了巨大的能量,电动车、内容分发、智能硬件甚至电商。

只不过,今天是 AGI 这个会改变文明走向的领域,DeepSeek 以如此迅猛的姿态登场,再一次刷新了全世界的认知。

这就是创新的第二重门

可以看到在 DeepSeek,当我们把创新的第一重门(小天才式)和第二重门(体系协同式)融合在一起,Boom!威力相当大。

原创(哲学性)思想

那是否还可以继续往下挖掘?是否存在一种更底层的创新元素?一个类似 o1 或者 R1 这样的颠覆式创新系统,构建于什么基础之上?

答案是一个原创的、全新的系统结构。那这个原创的结构,又从何而来?

回答这个,我想引用一段我很喜欢的 Ilya 的话(视频前2分钟):

我喜欢思考非常基本的问题...几乎可以将这些问题视为哲学问题。例如,什么是学习?什么是经验?什么是思考?...

我认为技术就像是一种自然力量,但看起来我们可以通过设计算法,来做有用的事情,同时解答这些(哲学问题)。这就像是一种 应用哲学

没错,第三重门的答案,是一种 近乎哲学式的,原创的思想

如果我们把视角拉远,看一下过去十年 AI 的创新源头。分别是:Google 2017年的 Transformer,DeepMind 2017年的AlphaZero,以及 OpenAI 2018年的自回归模型GPT

但是这不仅仅是三个模型啊,内核是三个哲学性思想,关于“学习”的本质:

(1) 用什么结构来理解世界万物,和他们的内在关系(Transformer)

(2) 如何通过不断的预测,把世界万物的复杂性压缩到直觉中(GPT)

(3) 怎么基于直觉构建深度思考,完成对世界的进一步抽象(Zero)

我们今天看到的 OpenAI o1,或者 DeepSeek R1,都是这三个哲学性思想,组合后的产物。从思想出发,先搭建了一个基础的系统结构,然后通过第一重门和第二重门的创新,把这个结构极致的打磨和再组合,显化成今天改变世界的产品。

哲学性思想的创造为何如此美妙?因为他们并不是为了找到一个优秀的解法,而是为了问出更本质的问题。

DeepSeek 跨越第三重门了吗?

我想梁文锋可能也会说,今天的 DeepSeek,还没有展现出这种原创(哲学性)的创新。但我却在读他们的文字中,瞥见了藏在背后的希望。

第一个例子,是关于 MLA 的产生,来源于一个研究者 “总结了 Attention 架构的演进规律”:

第二个例子,是 DeepSeek-Math 文章中很大篇幅,分享了对所有后训练过程的统一框架的认识。尽管有类似的思想存在过,但你似乎可以感受到那些背后无边界的热烈讨论。

第三个例子,则是他们在 R1 中展开的 R1-Zero 的探索,这个大胆的尝试,希望跳过所有的后训练步骤,让大模型在直觉模型的基础上,完全不依赖标注数据,自我演进成一个有思维能力的模型。R1-Zero 没有用到最终的 R1产品 中,但论文中却浓墨重彩的探讨他的启发意义。对,以及那个 Aha Moment,原文是这样写的:“这不仅仅是模型的 Aha,也是观察模型的研究者的 Aha!”

所以,你感受到了吗?在克制的技术语言背后,藏着一种无法掩盖的兴奋和热爱。这是无边界的好奇心的味道,这是迫不及待想和世界分享的味道。

是原创的、哲学式的思想,呼之欲出的味道。

最后一块拼图

我不知道梁文锋是不是中国的 Ilya Sutskever,但我坚信一个跨过创新三重门的组织,需要一个思想性的领袖。说到这里,今天 OpenAI 最缺的,不就是这个吗?(写第一篇时的心情重现)

谁都无法预测未来。但也许哪一天,在 DeepSeek 的新论文中,会出现 Transformer 和 AlphaZero 级别的全新思想。

更大胆一点,如果我们在 DeepSeek 的启发下,产生了许多全新时代的创新型组织,在各自的领域跨过创新的第一重门和第二重门,并进一步产生了一批颠覆式的思考者,和原创的、哲学性的思想。

再大胆一点,如果这些思想和创新成果,以透明和开放的方式分享给全世界。这样的世界,你会更愿意参与吗?

这是 DeepSeek,会真正让历史记住的东西。

注:本文的参考资料主要来自于 DeepSeek V2/V3/R1/Math 论文及行业人士对 DeepSeek 的解读,而非严格的事实论证,存在错误请 DeepSeek 团队见谅。

来源:opendotnet

相关推荐