摘要:“过去很多年里,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
“过去很多年里,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
2023年5月怀揣着对 AI 前沿未知边界探索的执念,梁文锋带领深度探索从幻方量化独立出来,以一种特立独行的姿态,投身AI的创业洪流。自此以后,DeepSeek命运的齿轮开始了飞速转动。
在春节期间,DeepSeek依靠最新发布的R1大模型,稳稳接棒由 kimi、豆包为代表的国产大模型高昂的声量,并以迅雷不及掩耳之势,实现了在AI垂类领域、泛科技研究者、普罗大众三个圈层的迅速破圈,关注度有目共睹。
如果以公司内在角度去归因 DeepSeek 如今取得的辉煌成就,不畏强权,信念坚定,言行一致的文化基因,则是自始至终伴随着 DeepSeek 走向巅峰的一条隐线。
1骨子里的不盲从早在GPT 3.5火爆全球的时候,国内的AI创业圈就流传着“全球前70%的顶尖AI人才都在美国工作”的论调。国内大厂开挖硅谷各种 AI Lab 的华裔或华人科学家已然成为当时的风潮。
而如果打开DeepSeek的招聘网站,DeepSeek的招聘信息中,除了对能力有着基本的要求外,其余经验在内的其他标准则显得十分宽松,甚至愿意给应届生开出百万年薪。
这并非DeepSeek为自身企业形象维护所做的文字宣传,他们既是这么说的,也是这么做的。
“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”在2023年DeepSeek首度接受暗涌专访时,创始人梁文锋如是说。
根据相关报道,DeepSeek 当前约 150 名核心人才,都是从北大、浙大等顶尖高校招募的。很多都没有海外经验,有些研究人员在加入DeepSeek之前,甚至都没有参与过模型训练的任何一个环节。
公司的招聘标准更看重 “聪明和热爱”,然后就是能力,有无丰富的简历经验则并不重要。研究团队主要由国内知名高校毕业的硕士和博士组成,且大多数成员毕业时间不超过五年,很多工作时间也都不超过两年。
据传,DeepSeek母公司幻方也拥有一套独特的用人标准。就连梁文锋本人在加入幻方量化之前,也没有一点量化投资的经验。
而或许正是由于DeepSeek这种从幻方到沿袭下来的不盲从、不信奉经验的调性,才让团队成员能够从第一性原理出发,沿着一条新路径开发新的大模型,不去模仿前人的路,用自己的方式,在模型架构、训练方式、数据应用等诸多方面进行一个又一个的颠覆式创新。
2敢想的同时也得敢做2024年5月,全球大模型百花齐放,你方唱罢我登场。韬光养晦了近一年的深度求索,依靠 DeepSeek V2 首度引起了一波行业内的小规模震动。
DeepSeek V2 “AI界的拼多多”的称号绝对不是徒有虚名。根据公开数据,DeepSeek V2 API 定价为每百万 tokens 输入 0.14 美元,这大约为 GPT-4Turbo 价格的1%。
DeepSeek V2 依靠低价策略,打破了以往高品质 AI 模型定价高昂的定论。更是直接导致了后续字节、阿里、百度、腾讯等大厂纷纷跟进降价,开启了去国产大模型的第一波价格战。
DeepSeek如何做到的?对于此创始人梁文锋却表示,DeepSeek V2能成为大模型界的价格屠夫,纯粹只是一个意外。
这句话听起来似乎有点凡尔赛,但其背后反映的道理却十分明了:AI大模型也绕不开“科技创新降低基建成本”这条基本逻辑。
24年上半年,国产大模型始终以跟随者的姿态,将 OpenAI GPT 的方法论奉如圭臬。在训练流程、架构、算法、算力建设规划上照葫芦画瓢。走别人走过的路是十分轻松的。但国产大模型训练无往不利的背后,高昂的成本也在模型间相互传导。
DeepSeek 偏不信邪。秉持不盲从的态度,他们选择另辟蹊径,大刀阔斧地首先在架构上开始寻求创新。
首先 DeepSeek V2 独创性的应用了 MLA(多头潜在注意力机制)技术,避免了传统注意力机制中高维数据存储的问题,大大降低了对硬件资源的需求,同时随之降低的就是推理成本。
除了 MLA 架构,DeepSeek V2 还在算法方面采用了 MoE(混合专家模型)。彼时的GPT、Anthropic等知名模型采用的都是传统的密集 Transformer 模型架构,特点就是参数量越大性能越好,仅有少部分模型采用了MoE。
Scaling Law之所以在彼时是唯一信仰,就是由于密集架构定义的模型性能与模型参数量的正向关系。这也直接促成了后来的训练算力军备竞赛的局面。
但密集 Transformer 模型架构并不完美,它的不足就是在处理复杂任务时计算资源分配不够灵活,效率相对较低。
大模型在处理问题时,就好比病人问诊,密集架构相当于全医院所有科室同时给一名病人诊断;而 MoE 模型则相当于给病人加了个先到问诊台分配科室的环节,后者对于整体资源分配的效率显然更高。MLA+MoE 的思路,是贯穿DeepSeek V2到V3乃至R1模型的最为核心创新成果。
如此看来,DeepSeek 并非刻意将低价营销作为V2的卖点,而是在改变架构的过程中,“随手”降低了训练成本,确实是妙手偶得之。
3V3到R1,彻底撕开OpenAI的铁幕半年后发布的 DeepSeek V3 继续遵循 V2 探索出的 MLA+MoE 的技术路线。而从V3到R1的发布,仅仅只隔1个月的时间,这一次DeepSeek则彻底地向OpenAI建立起的“大模型训练规范”,发起挑战。
自 ChatGPT 3.5 之后,OpenAI 立下的“预训练、监督微调、奖励建模、强化学习”就是大模型训练的不二法门。
DeepSeek R1则在训练过程中大胆创新,完全摒弃了在传统流程中监督微调的作用。
所谓监督微调,就是让模型将调整自己的答案与人类偏好保持一致。而V3和R1的中间模型R1-Zero,就是一个纯粹基于强化学习,没有加入监督微调训练出来的模型。
监督微调环节深度依赖于大量标注数据,而当 AI 预训练的数据正在走向枯竭的困境到来之时,DeepSeek 则选择打破常规范式,跳过人工标注数据的监督微调,用模型强化学习自我生成的高质量合成数据,来作为模型后续强化学习的微调标准。
DeepSeek 的这一创新,和谷歌Alpha Zero的迭代思路极其接近,而 R1-Zero这个名字很可能也取自于Alpha Zero。
第二代的 AlphaZero 在训练过程中,放弃了AlphaGo使用的真人围棋对弈数据,完全通过自我对弈来生成自我训练数据,这种方式使得 AlphaZero 能够摆脱人类经验的限制,探索出独特的下棋策略。
而这也正是R1的训练思路。R1在R1-Zero的基础上,通过多轮 “微调 - 强化学习” 的循环,形成了在长思维链中产生自我总结、自我反思、灵感涌现的新形态,从在数学、编程等推理任务中取得了优异的表现。
大规模的标注数据价格是十分昂贵的,OpenAI 为什么仍然坚持监督微调?很可能是因为他们烧得起钱,搞得到优质的数据。
而 R1 在完美实现 GPT-o1 相同性能的前提下,减少了对大规模标注数据的需求,又一次将“价格屠龙刀”砍向了大模型的标注数据成本,真正做到了让最前沿的推理大模型惠及千家万户。
回望DeepSeek一路走来,始终不变的,是特立独行的调性,是敢于挑战权威并做出具有开创性的决策果敢。
4开源的阳谋DeepSeek确实配得上当前全网如此高的关注度。但不得不承认的是,DeepSeek距离一个完整的产品,尚存在很大的距离。
在重度体验后,用户能够很明显地发现 DeepSeek 无论是网页端还是客户端,都存在包括上下文记忆的内容较少,不支持长文本交互,多轮对话后需要另起一个新对话的问题,同时也存在响应速度慢容易宕机、缺乏其他大规模已经大规模应用的多模态功能等问题。
但是换个角度来看,或许DeepSeek从来没有将打造一个成熟的产品作为最终的目标(至少暂时如此)。
因此DeepSeek R1,继续坚持开源。
如梁文锋所言,开源更像一个文化行为,而非商业行为。如果一定要给DeepSeek既做前沿技术探索又去做开源共享找一个商业上的理由,这几乎是找不到的。
客观来说,DeepSeek抑或母公司幻方量化,想要与腾讯、字节等巨头在产品方面拼刺刀,确实尚存不小的差距。无论是承载大量并发的用户访问负载,还是基建投资维护都是不小的负担。
说到底,DeepSeek并不缺钱。单单依靠母公司幻方量化提供的充足研发预算,加之有关部门以及下游友商的鼎力支持,DeepSeek至今都没有表达过融资的计划。商业化在很长一段时间内都不会是DeepSeek需要主动思考的议题。
而这种开放共享的姿态,不由得让人联想起彼时的安卓依靠开源生态迅速打败塞班系统,占据市场主流的例子;亦有马斯克开放特斯300多项电动汽车的专利、SpaceX猛禽发动机图纸等果断决策。
对于行业而言,DeepSeek的开源一方面重重地削弱了算力过去两年演绎的“军备竞赛+供不应求”逻辑,真正意义上加速了大模型平权的产生。另一方面DeepSeek高性能+低价的特点,无疑将在2025年激活沉寂许久的AI应用市场。AI大模型降本增效的潘多拉魔盒,已然被DeepSeek揭开。
产业链进展神速,这种局面似乎只能用“久旱逢甘霖”来形容。
微软、亚马逊、阿里云等云厂商,已经接入DeepSeek-R1;端侧AI手机方面,华为鸿蒙NEXT的小艺助手优先接入DeepSeek;AI PC方面社区已经开始传播用 Ollama等已经可以实现PC本地部署,微软已经将针对NPU优化的DeepSeek R1版本直接接入Windows 11 Copilot+PC。
根据硅基流动,当前DeepSeek-R1-Distill-Qwen 8B/7B的模型已经能够完全免费调用,这些小模型可以直接在端侧进行部署。
DeepSeek的开源,带给其他大模型厂商的压力是难以想象的,特别是已经商业化了的厂商,例如OpenAI恐将损失大量的订阅费收入。与此同时,国产厂商的追赶速度也不容小觑:同样包含MoE算法的阿里Qwen2.5-Max、Kimi 1.5、智谱GLM-Zero-Preview等推理大模型纷至沓来,未来谁也不能保证DeepSeek将是永远的第一。
趁着竞争对手没有赶上,DeepSeek正在短暂的黄金时间窗口内快速抢占市场份额,发挥舆情的长尾效应尽快实现生态上的渗透。DeepSeek或许将复刻类似谷歌开源安卓的成功路径,甚至有望成为首个分布式的AI大模型。
立足行业视角,“DeepSeek们”对于各行各业渗透的想象空间是空前的。在目前阶段,如何进一步迭代模型性能,能否在下一代模型上追击 OpenAI 最新的o3模型,如何与同类国产大模型拉开身位的同时维持低成本,显然是DeepSeek当前更值得关注的问题。基于上述考量,DeepSeek开源的决断,似乎也不难理解了。
5尾声DeepSeek的话题,当前已经不单单是AI或者科技行业单一维度上的热点性事件,已经成为全民级的话题。
而他们之所为人所津津乐道,不单单是DeepSeek在大模型技术上实现了跨越式的突破,更是其背后所代表的年轻一代创业者们对于“美国擅长搞技术创新,中国更擅长做应用思维”这一思维范式的反抗。
正如梁文锋自己坦言,“也许我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。”
乾坤未定。
来源:新财富杂志