【导读】全球 AI 竞赛正酣,DeepSeek 的出现,宛如一石激水,打破了原有的平静。作为资深技术专家和行业观察者,CSDN 高级副总裁、Boolan 首席技术专家李建忠将在本文拨开“DeepSeek 热”的表象,深入探究其背后的技术创新逻辑和生态战略布局,揭示 DeepSeek 如何在全球 AI 竞争中脱颖而出,并预见其对未来 AI 格局可能产生的深远影响。摘要:全球 AI 竞赛正酣,DeepSeek 的出现,宛如一石激水,打破了原有的平静。作为资深技术专家和行业观察者,CSDN 高级副总裁、Boolan 首席技术专家李建忠将在本文拨开“DeepSeek 热”的表象,深入探究其背后的技术创新逻辑和生态战略布局,揭示 D
作者 | 李建忠
出品 | CSDN(ID:CSDNnews)
春节期间,DeepSeek 在全球科技圈引发强烈震动。“DeepSeek 时刻” 、“国运级创新”等热议现象在欧美科技界和国内不断涌现,西方主流媒体如《自然》、《纽约时报》、《经济学人》也纷纷报道,全球科学、技术、金融、政府、军事等领域的专家政要亦高度关注。尽管对于 DeepSeek 的评价各有侧重,但其出圈和影响力已不容忽视。
DeepSeek 到底做了什么?所谓的“DeepSeek 时刻”或者“国运级创新”到底意味着什么?
个人认为 DeepSeek 巨大的影响力不仅仅在于它在 AI 领域实现的几个方面的关键技术创新,更重要的是由其引发的对全球 AI 生态版图的升级和重塑。本文将从以下两个维度,谈谈我对 DeepSeek 的创新研究和思考:
(一)DeepSeek 的关键技术创新;
(二)DeepSeek 对于大模型的生态意义。
DeepSeek 的关键技术创新
1. 开源强化学习引领推理计算范式转换
去年 9 月份 OpenAI 发布的 o1 模型展现了强化学习在推理计算方面的卓越能力,但是 OpenAI 既没有开源,技术报告也语焉不详,全球 AI 界虽然对大模型将迎来从预训练到推理计算的范式转换抱有很高期待,但一直没有成功的复现。直到 DeepSeek R1 的出现,无论是在以推理为主的各项国际公认的评测指标上、还是实际使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一众前沿闭源模型。
DeepSeek 的推理计算路线也让很多业内专家叹为观止,其使用纯粹 RL(强化学习),无需 SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯 RL(强化学习)来激励大模型的推理能力。DeepSeek 在 R1 的训练中也观察到了模型推理时“喃喃自语反思错误的 Aha Moment”(所谓大模型的“顿悟时刻”)。DeepSeek 的研究人员在其论文中谈到,这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”。
为什么说使用 RL 强化学习来做推理计算,为大模型带来了新的范式转换?人类智能的学习行为本质上分两种:模仿学习和探索学习。
预训练就是大模型的模仿学习,在 OpenAI o1 和 DeepSeek R1 两个模型之前,大模型主要进行的是“预训练”为主的模仿学习。喂给大模型什么样的数据,大模型才能学会什么。没教的一概不会,非要回答就会幻觉说胡话。
强化学习就是大模型的探索学习,这是在 OpenAI o1 和 DeepSeek R1 推理时主要的学习方式。在强化学习支持的推理计算下,大模型会不断探索优化、遇到错误会改正自己。不难理解,如果没有探索学习,仅仅基于预训练的模仿学习,大模型遇到复杂问题,很难超过人类专家。而有了探索学习,大模型才有可能发展出远超人类智能的水平,比如在 AlphaGo 当时大败围棋冠军李世石时著名的第 37 手(move 37),背后就是强化学习的功劳。
强化学习在 AI 领域并不新鲜,但将强化学习泛化地应用在大模型领域,成为大模型推理计算的核心,OpenAI o1 和 DeepSeek R1 属于开先河者。大模型领域也因此迎来了从预训练到推理计算的范式转换,而且因为开源的引领,相信 DeepSeek 有机会成为这一范式转换的领导者。
顺便提一句,DeepSeek 在工程领域也有很多可圈可点之处,比如从纯强化学习模型 R0,到使用 SFT、基于 V3 基座模型调教出来既有文采又懂推理、文理双全的 R1;再比如使用 R1 作为教师模型来蒸馏多个小模型,使得小模型也具备很高的推理能力。这些都会加速大模型向推理计算的范式转换。
2. MLA 和 MoE 等引领大模型架构创新
自 GPT 采用 Transformer 架构取得成功以来,经典 Transformer 架构一直是很多大模型的标配。但这不意味着 Transformer 是完美无缺的。DeepSeek 在 Transformer 架构的基础上也做了很多创新,主要包括两个方面:(1)多头潜在注意力即 MLA ;(2)混合专家模型即MoE。
MLA 用于高效推理,源自 DeepSeek V2 的原创,其显著降低了推理显存的消耗。MLA 主要通过改造注意力算子压缩 KV 缓存大小,将每个查询 KV 量减少 93.3%,实现了在同样容量下存储更多 KV 缓存,极大提升了推理效率。
MoE 用于高效训练,其由多个专家模型组成,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗。MoE 非 DeepSeek 原创,但 DeepSeek 早在 V2 之前的代码和数学模型(DeepSeek-Coder & DeepSeek-Math),就从稠密架构转向 MoE 架构。V3 模型中更是大胆地使用了高难度的 256 个路由专家和 1 个共享专家,并创新的采用冗余专家,来实现负载均衡策略和训练目标。
3. “贴身定制”的软硬协同工程优化
由于众所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架构创新的同时,在工程优化方面也丝毫没有放松。分别从计算、存储、通信等多个层面实施了软硬协同的工程优化策略:比如混合精度训练、跨节点通信优化、双流水线机制、DualPipe 算法等。甚至采用 PTX 代码(比 CUDA 更底层的汇编代码)进行底层优化,实现调整寄存器分配、线程调度、Warp 级别优化。
这种围绕模型需求,对硬件进行“贴身定制”的软硬协同工程优化,在一些手握充裕 GPU 卡资源的硅谷大厂技术人员眼里,很像一些“雕虫小技”。但我想说的是,技术界的雕虫小技不可小觑,技术领域的创新往往是从这些雕虫小技开始的。
回顾一下计算历史:Hadoop 如何倒逼 EMC、IBM 重构存储架构?ARM 精简指令集如何用低功耗设计颠覆英特尔 x86 帝国?TCP/IP 协议栈如何倒逼传统网络设备革命?记得图灵奖得主、RISC 指令发明人 David Patterson 曾经有言“硬件架构的创新往往诞生于软件需求对硬件的持续鞭策”。
如果假以时日,DeepSeek 成为开源大模型领域的标配后,很难说不会出现用“软件定义硬件”或者说“模型定义硬件”来倒逼硬件厂商,走出一条颠覆英伟达 CUDA 生态的道路。
DeepSeek 对大模型生态的意义
1. 大模型成本降到和搜索相当,AI 应用和智能体迎来爆发
DeepSeek 无疑引爆了大模型的成本之战:(1)自身通过“模型架构创新”和“软硬件协同工程优化”将大模型训练成本大幅度降低,大约是 Meta 的 1/10,OpenAI 的 1/20;(2)通过最开放的 MIT 开源协议,和将推理大模型蒸馏给开源小模型等一系列工程方法,为业界带来低成本的端侧模型商品。
谷歌一次搜索成本大约 0.2 美分(0.002 美元),DeepSeek R1 推理成本百万 token 输出 16 元(2.2 美元), V3 对话输出百万 token 2 元(这只是 DeepSeek 官网对外的 API 价格,如果考虑实际发生的推理成本、会更低)。
作为对比:OpenAI o1 百万 token 输出 60 美元,是 DeepSeek R1 的 30 倍。如果假设平均一次推理输出大约 1000 token(相当于大约 500 个汉字)。那么 DeepSeek 一次推理输出价格大约 2.2 美元/1000 次=0.2 美分,对话输出大约 0.025 美分。
也就是说,DeepSeek 将大模型的推理输出降到和谷歌一次搜索成本的价格相当,对话输出则大约是搜索的 1/10。这是具有指标意义的时刻。
我记得 2023 年 4 月份在硅谷访问时和 Google 做搜索的朋友聊,他谈到他们内部从上到下对 ChatGPT 持相当观望的态度,因为如果按照当时大模型的成本,来对比谷歌的搜索成本,谷歌马上会从一个盈利 600 亿美金的公司,变成一个亏损上千亿美金的公司。虽然,大家都预期大模型的成本会不断降低,但没想到不到 2 年时间,降低如此之快。
成本一直是技术革命背后的利器。搜索作为互联网的基础设施,正是因为极低的成本,才能快速完成对全球信息的整合,引爆了互联网革命。而 DeepSeek 在 2025 年开年将大模型成本降到和搜索相当,加上性价比极高的端侧模型,大模型将很快成为各种应用的基座支撑,GenAI 也将迎来应用爆发的 tipping point。同时随着强化学习在推理计算带来的范式转换,依赖推理能力的智能体 AI Agent 也将迎来加速,2025 年将是大模型应用和智能体爆发的元年。
2. AI 铁三角迎来新的变量,AI 产业版图有望被重塑
算法、算力、数据一直是 AI 的铁三角。随着大模型成为 AI 科技树的主流,基于 Transformer 架构、以预训练为主的模型算法,及其展现的 Scaling Law 一直在向业界传达一个信息:算力决定一切,训练数据越多、算力越大,模型性能就会越来越好,所谓“大力出奇迹“。AI 产业的竞争也变成了“谁拥有 GPU 越多、谁的 AI 能力越强”的军备竞赛。
但 DeepSeek 分别从 “后训练”和“预训练”两个阶段对这样的唯算力论提出了响亮的质疑:
(1)后训练阶段——开源强化学习加速推理计算的范式转换:随着强化学习成为后训练阶段的标配,推理计算将占比越来越大(相对预训练计算)。适应预训练模式的 GPU 大卡集群计算(英伟达的优势)将不再是未来 AI 算力需求的主流,而英伟达在推理计算方面的优势相对较弱,很多头部厂商如谷歌 TPU、AWS Inferentia、华为昇腾等专为推理优化的芯片,在特定负载下能效比显著高于通用 GPU,加上适应多元推理场景的分布式计算、边缘计算、端侧计算,推理算力领域将不会是英伟达一家独大的局面。
(2)预训练阶段——通过 MoE 和 MLA 等对经典 Transformer 架构进行的改进和迭代:这使得 DeepSeek 使用少于同行 10~20 倍的算力,完成了同等规模的预训练。另外,DeepSeek 使用 R1 作为教师模型来实现对小模型的“强化学习推理能力”蒸馏的工程实践,也会为很多模型训练带来一波红利。
DeepSeek 从 “后训练”和“预训练”两阶段对 AI 算法进行的创新,为“算法、算力、数据”构建的 AI 铁三角带来新的变量,有机会重新塑造未来 AI 产业的发展版图。
3. 开源的长期主义是创新摇篮
最后,说说 DeepSeek 的开源战略。DeepSeek 支持商业友好的 MIT 许可证(最为宽松的开源协议之一),开源模型权重,没有对下游应用的限制(比如合成数据、蒸馏等)。论文开放的技术细节也很有诚意。在全球排名 Top 10 的头部模型中,DeepSeek 是开源程度最高的,比最早扛起开源大旗的 Meta 的 LLaMA 还要更 Open。这也是 DeepSeek V3 和 R1 在海内外引起众多权威专家、大佬认可+尊重、甚至赞不绝口的原因。不隐藏、不吹嘘,模型、评测、原理等都结结实实摆在那里。
顺便说一句, DeepSeek 的论文从一开始就大大方方地承认了其在微观设计上遵循了 LLaMA 的设计。相对国内各种扭扭捏捏、遮遮掩掩的“半开源”,以及违背开源协议、使用开源实现自己的闭源,DeepSeek 在模型开源方面可以说相当慷慨、也很敞亮。
DeepSeek 实际上在第一天就拥抱开源,回想起早期阅读《DeepSeek LLM : 用长期主义来扩展开源语言模型》 这篇 DeepSeek 于 2024 年 1 月发表的论文,对开源的信仰和宣言,读起来让人心生敬意。深层次来看,DeepSeek 是真正深刻领悟开源精神、站在全人类创新的高度、从战略而非战术上拥抱开源的。
摘抄 DeepSeek 创始人梁文锋 2024 年 7 月份接受采访中的一段话“我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。开源和发表论文不会带来重大损失。对于技术人员来说,被同行追随本身就是一种成就。开源不仅仅是商业策略,更是一种文化。”以此观之,2025 年 1 月,DeepSeek V3 和 R1 给全球 AI 界带来的震撼,不足为奇。
DeepSeek 的成功点亮了中国技术界最纯粹、最原始的创新火种,他们会激励一代又一代的中国技术人为全世界做出自己独特的创新。致敬 DeepSeek。
【活动分享】2025 全球机器学习技术大会(ML-Summit)将于 2025 年 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 海内外专家,聚焦包括 DeepSeek 在内的大模型技术和生态变革技术实践。详情参考官网:https://ml-summit.org/ (或点击原文链接)。
来源:CSDN