摘要:一些数据足以证明DeepSeek的火爆。1月27日,DeepSeek在中国区和美国区苹果App Store免费榜上同时冲到了下载量第一;DeepSeek单周下载量高达约240万次……
今年春节,一款中国大模型席卷了全球AI圈。
引发这场全球范围内AI讨论的是DeepSeek R1,直接对标OpenAI去年9月发布的OpenAI o1系列模型。
一些数据足以证明DeepSeek的火爆。1月27日,DeepSeek在中国区和美国区苹果App Store免费榜上同时冲到了下载量第一;DeepSeek单周下载量高达约240万次……
直到DeepSeek R1发布之前,OpenAI o1还让中国大模型厂商们望尘莫及。DeepSeek R1的出现,让OpenAI CEO奥特曼感叹,“这是个令人印象深刻的模型”,英伟达更是称赞DeepSeek R1为最先进的大语言模型。
更重要的是,相比OpenAI在模型上的闭源,以及o1模型付费使用限制,DeepSeek R1不仅开源,并且免费供全球用户无限调用。
这场由DeepSeek掀起的AI风暴之下,也引发了全球范围内AI从业者的跟随,也引起了一些恐慌和攻击。
“大模型开源之王”的Meta内部员工爆出“Meta生成式人工智能部门陷入恐慌”;OpenAI的压力也溢于言表,两周内接连发布三个大模型:两个AI智能体 Operator、Deep Research、推理模型o3-mini。
另一方面,1月28日凌晨,DeepSeek官网连续发布两条公告称,DeepSeek线上服务受到大规模恶意攻击。
DeepSeek俨然站在了风暴中心。很关键的一点在于,DeepSeek打破了大模型行业拼算力的共识,DeepSeek用不到OpenAI十分之一的资源,就做出了性能对标OpenAI o1的DeepSeek R1。
这时候问题来了,倘若大模型不需要那么多算力进行训练和推理,AI上下游产业还会那么性感吗?
资本市场给出了答案。截至1月27日美股收盘,美股科技股大跌,费城半导体指数下跌9.2%、英伟达股价下跌近17%。
一夜之间,一切与AI有关的环节都发生了微妙的变化。蝴蝶效应还在继续,AI行业的走向也在持续变幻莫测,DeepSeek似乎成了重新制定游戏规则的那一个。
被攻击、被力挺,DeepSeek被“包围”了
2023年春节,ChatGPT的横空出世点燃了AI行业的火种。自那之后,几乎每年春节都有爆火的大模型出现。2024年是Sora,2025年是DeepSeek。
不同的是,前两年站在C位的公司是美国的OpenAI。今年,站在C位的是中国的深度求索。
连续多日登顶苹果App Store全球下载榜首;DeepSeek上线20天,日活突破2000万。作为一家AI创业公司,这股来自东方的“神秘力量”彻底冲击了AI行业。
这股力量很快席卷了远在大洋彼岸的硅谷。要知道,自文本大模型ChatGPT横空出世后,视频大模型Sora,再到深度推理模型o1,OpenAI是行业的范式企业,其他大模型企业通常扮演追随的脚步。
拿o1大模型来说,自去年9月推出以来,国内大模型企业尚未推出能与之对标的大模型。这一次,DeepSeek用更小的算力、更低的成本,带来了DeepSeek R1,无疑让市场眼前一亮。
实际上,相比OpenAI和它的中国效仿者们用数亿美元训练大模型,DeepSeek的思路始终是“花小钱,办大事”。
早在去年12月底,DeepSeek发布对标GPT-4o的V3模型,其仅使用2048块英伟达H800芯片,耗费约560万美元。相比之下,GPT-4o使用上万块英伟达H100芯片(性能优于H800),训练成本约1亿美元。
去年5月,DeepSeek发布DeepSeek-V2 ,价格仅为GPT-4 Turbo的近百分之一。也是从那时候开始,字节、阿里、百度等大模型相继宣布降价,DeepSeek更是一年内3次降价,每次降幅超过85%。
无论是价格,还是训练成本,DeepSeek都不追求大而全的路线,而是走在细分和创新的路线上。
比如,DeepSeek提出了一种新的MLA(多头潜在注意力)架构,与DeepSeek MoESparse (混合专家结构)结合,把显存占用降到了其他大模型最常用的MHA(多头注意力)架构的5%-13%。
此外,DeepSeek通过“数据蒸馏”技术来训练模型,即用一个高精度的通用大模型当老师,仅用1/5的数据量达到同等效果,促成了成本的下降。
对标OpenAI只是表面,本质上,DeepSeek冲击的是整个大模型行业,也面临着前所未有的压力。
在登顶中国和美区苹果应用商店24小时后,DeepSeek再次站在风暴中心:OpenAI对媒体指控 DeepSeek未经许可“蒸馏”了其专有技术。
美国多位官员也发声支持这一指控,包括特朗普的人工智能顾问大卫·萨克斯、特朗普提名的美国商务部长霍华德·卢特尼克。
所谓的“蒸馏”,指通过对更大、更强模型的学习,让小型模型能够在特定任务上以更低的成本取得类似效果。
此次争议源于OpenAI的最大投资方微软。1月29日,据外媒报道,微软的安全研究人员发现,DeepSeek相关人士可能使用 OpenAI 应用程序编程接口 (API),未经授权窃取了大量数据。
此外,DeepSeek的线上服务一直在遭到不同程度的攻击。从最开始是SSDP、NTP反射放大攻击,到1月28日增加了大量HTTP代理攻击,针对DeepSeek的网络攻击一直在层层加码。
被质疑、被攻击的另一面,还有不少企业在迅速适应并拥抱DeepSeek带来的新变化。
在云领域,华为云、腾讯云、阿里云、百度智能云、火山引擎、京东云、360数字安全等多平台都宣布上线DeepSeek大模型。此前海外的亚马逊云、微软智能云等云巨头也已官宣支持。
在芯片领域,继英伟达、AMD、英特尔等海外芯片巨头加入支持,国内芯片公司天数智芯、摩尔线程接连宣布支持DeepSeek模型。
无论是被攻击,还是被支持,DeepSeek被包围是意料之中的事,这也是行业明星项目的必经之路。也只有经得住质疑与对比,才能在“百模大战”中站稳脚跟。
靠技术创新,DeepSeek掀起AI风暴
自2023年以来,大模型行业从来不缺新闻。但堪称爆火的项目,没几个。ChatGPT、Kimi是,如今的DeepSeek也是。
某种程度上来讲,和众多追随OpenAI的大模型不一样,DeepSeek成了新一轮AI风暴的发起者。
当前,DeepSeek R1被公认为是目前最先进的大语言模型之一,能够提供高质量的语言处理能力,其在数学、代码、自然语言推理等任务上的性能可比肩OpenAI o1模型正式版。
在AIME 2024数学基准测试中,DeepSeek R1得分率为79.8%,OpenAI o1的得分率为79.2%;在MATH-500基准测试中,DeepSeek R1得分率为97.3%,OpenAI o1的得分率为96.4%。
DeepSeek R1强大的推理能力,离不开DeepSeek的技术创新,其创新性的训练方法也给行业提供了新的思路:DeepSeek摒弃了传统的监督微调(SFT)路径,转而通过强化学习(RL)来优化推理路径。
普遍观点认为,大模型训练必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用RL进行能力提升。OpenAI此前的数据训练非常依赖人工干预,耗费了不少人力和财力。
然而,DeepSeek这项研究发现,大模型可以完全依靠强化学习获得强大的推理能力,无需任何监督式微调。
这项训练方法,率先出现在实验性R1-Zer版本上,随后又在DeepSeek-V3-base模型上应用强化学习,完全抛开了传统的监督式微调环节。
最终结果显示,DeepSeek R1在完全没有人工标注数据的情况下,DeepSeek系列模型通过不断尝试和反馈,展现出了持续的自我进化能力。
在技术创新方面, DeepSeek采用了创新的设计,如 MoE-2048 架构。其中,每个token能激活8个专家模块,使得模型参数的利用率大幅提升至72%,训练效率相较于传统的Transformer架构提高了整整3倍。
DeepSeek大模型能力已然有目共睹,更为重要的是,DeepSeek正在用创新性的低成本思路颠覆市场格局。
以DeepSeek R1为例,其性能与GPT o1相当,然而预训练成本却仅为557.6万美元,仅为GPT-4o的十分之一。同时,DeepSeek API服务定价远低于OpenAI,以输出为例,输出每百万tokens 16元(约2.2美元),GPT o1输出每百万tokens 60美元。
站在整个行业视角,DeepSeek在提供更便宜、更好用的深度推理模型的同时,践行开源理念,让深度推理模型不再是一个黑匣子,给行业也带来了新的启发。
这两年,开源和闭源的路线之争是大模型行业讨论的焦点,前者以Meta为代表,后者以OpenAI为代表。
此前,OpenAI推出的ChatGPT、Anthropic推出的Claude均采用闭源,并凭借头部的影响力,将闭源路线推到领先位;如今,DeepSeek的成功,无疑给支持开源路线的人信心。
DeepSeek爆火后,同样支持开源路线的Meta首席人工智能科学家Yann LeCun表示,DeepSeek的成功代表了开源人工智能模型的胜利。“开源模型正在超越专有模型。”他在LinkedIn上的一篇帖子中写道。
实际上,像DeepSeek这样开源更深远的意义在于,将如何构建模型的过程通过论文的形式公开,为行业提供了极大的透明度,推动整个大模型行业的进步。
伴随DeepSeek R1既免费,又开源,还跻身第一梯队的超预期表现,直接引发了市场对大模型行业的质疑:众多科技巨头投入更多算力和资金做出来的东西,和DeepSeek水平相似,“OpenAI们”真的值那么多估值吗?
DeepSeek不仅打破了AI大模型领域“拼算力”的逻辑,还动摇了投资者对高科技晶片的信心:AI行业也许并不需要那么多晶片,也可以训练出性能好的大模型。
多方的声音直接冲击了美国科技股的资本表现。1月27日美股收盘,美国科技股大跌,其中英伟达股价下跌近17%,市值蒸发近6000亿美元,规模创美股史上最大。
这场由DeepSeek卷起的风暴还在继续。从市场竞争格局来看,DeepSeek的崛起打破了原有的平衡,对传统的 AI 巨头构成了挑战,促使整个行业重新审视自身的技术路线和市场策略。
恐慌、跟随、降价,
DeepSeek引起的蝴蝶效应来了
今年春节之前,提起DeepSeek,大多数人还有些陌生,行业的目光也都集中在OpenAI以及一些科技巨头身上。
没想到,DeepSeek的横空出世让本就不平静的湖水再度泛起涟漪,也顺势引发了一系列的蝴蝶效应。
正如英伟达高级研究科学家Jim Fan评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着OpenAI最初的使命——开展真正开放的前沿研究,为所有人赋能。”
有人惊叹,也有人恐慌。
最先坐不住的莫过于OpenAI。自两年前推出ChatGPT以来,OpenAI就是行业风向标,OpenAI的很多思路也都被行业认可。
比如开源路线。2月1日,奥特曼参与海外社交平台Reddit “问我任何事” 的问答活动。活动中,奥特曼首次承认,OpenAI的闭源策略“站在了历史错误的一边”。如奥特曼所说,“我们需要找到一个不同的开源策略”,“目前的OpenAI正处于一个‘复杂而微妙’的境地,并且面对重重挑战”。
比如训练方式。此前,OpenAI定义了大模型训练的四个阶段:预训练、监督微调、奖励建模、强化学习。现在,这个范式被打破了,DeepSeek已然证明可以跳过和简化某些环节来提升模型的训练效率和性能。
又比如“尺度定律”。这两年,OpenAI CEO奥特曼一直坚称,OpenAI的业务有三个关键因素推动:芯片、数据和资金。人们向他的公司投入的这三个元素越多,就像向蒸汽火车的熔炉里投入煤炭一样,它产生的人工智能就越强大。
如今,这个理论再次被DeepSeek击破。如果能用更便宜甚至免费的模型来达到OpenAI的成绩,那OpenAI的商业模式将受到质疑,其市场份额也将被蚕食。
如此猛烈的冲击,让OpenAI没有太多时间恐慌,OpenAI必须迅速做出跟随式地调整。
2月1日,OpenAI发布o3-mini,这是OpenAI首个开放给免费用户的推理模型;2月5日,OpenAI 宣布o3-mini大语言模型正式向ChatGPT用户和开发者开放使用;2月6日,OpenAI宣布向所有用户开放ChatGPT搜索功能,且无需注册。
几天之内的“放大招”,都来自DeepSeek带来的压力。
据Wired报道,OpenAI提前发布o3-mini是为了应对DeepSeek上周一发布的专注推理的大语言模型 R1。后者的发布引发了人工智能股票的大幅抛售,也让人们对OpenAI模型的成本效益产生怀疑。
据OpenAI介绍,o3-mini是其最具成本效益的推理模型,在科学、数学、编程等领域的能力较强,同时兼具o1-mini的低成本和低延迟特点,o3-mini可与联网搜索功能搭配使用,不过o3-mini还不支持视觉功能。
与此同时,OpenAI也在提供越来越低的API调用价格。据OpenAI介绍,自GPT-4推出以来,每个token的定价下降了95%。o3-mini输入、输出每百万tokens的定价分别为0.55美元、4.4美元,仍高于DeepSeek R1。
OpenAI的恐慌与跟随只是这场蝴蝶效应的一个切面,DeepSeek这只蝴蝶扇动翅膀的力度很大。
1月30日,Anthropic CEO达里奥·阿莫迪发万字长文呼吁“锁死芯片出口”,以确保AGI只发生在美国。当日,外媒援引消息人士的话称,美国正在考虑对售华芯片实施额外限制的可能性,其中包括Dario建议限制的芯片 H20。
当然,我们都清楚,技术封锁并非保持优势的长期有效手段,开放与合作才更有利于AI行业的未来发展。技术封锁或许只是这场AI战役的开端,以DeepSeek为代表的中国AI企业面临的挑战还有很多。
眼下,AI世界正发生一些变化。DeepSeek带来的变革,正在深刻地变革整个AI产业链。低成本的开发模式或许将衍生出一系列低门槛的行业创新规则、创新方式,吸引更多创业玩家入场。
这场由DeepSeek掀起的新“ChatGPT”时刻,仍在发生新的故事。
来源:连线Insight