美分析机构称DeepSeek V3 成本远超600 万美元,实际达13亿美元!

B站影视 2025-02-03 00:11 2

摘要:而Google早在1个月前就悄悄上线了性能相当、价格更低的Gemini Flash 2.0,却因市场策略拉胯惨遭无视。但DeepSeek靠着「中国黑马」的叙事红利,硬生生把行业带进了「算力性价比幻觉」的狂欢,甚至让Meta 的高薪高管们心头一紧。

DeepSeek 暴雷了?!

当整个硅谷及国内民众还在为DeepSeek「仅用600万美元训练出匹敌GPT-4o的AI模型」疯狂刷屏兴奋时,半导体分析机构SemiAnalysis一纸报告指出——

这个数字的水分实在有点大!

其称所谓的600万美元,不过是最终训练阶段的GPU电费账单,却完全忽略了资本支出和研发成本。

并指出,模型训练真正的烧钱黑洞藏在冰山之下:

1.3亿美金的服务器基建9.44亿美金的集群运维数月的架构试错……

要全部算下来,实际开支将直奔10亿美元量级!甚至要更多。

公关「障眼法」?

OpenAI前脚刚秀完o1模型的推理肌肉,DeepSeek后脚就掏出R1模型叫板对标,甚至反超。

但细看论文会发现:R1的算力消耗被打码了,合成数据生成和强化学习需要的大量GPU资源也被刻意隐藏。

而Google早在1个月前就悄悄上线了性能相当、价格更低的Gemini Flash 2.0,却因市场策略拉胯惨遭无视。但DeepSeek靠着「中国黑马」的叙事红利,硬生生把行业带进了「算力性价比幻觉」的狂欢,甚至让Meta 的高薪高管们心头一紧。

创新「明暗线」

如果说成本争议是烟雾弹,有些公关作风,那DeepSeek的多头潜在注意力机制(MLA) 则是实打实的硬核技术创新和突破了。

这项让KV缓存暴降93.3%的黑科技,直接把推理成本砍到地地价,让DeepSeek 变身AI 界拼多多。

甚至多家北美AI实验室都连夜成立专项组,对DeepSeek 论文和代码逐字研读。据说连Hinton本人都对着论文拍大腿:

这玩意我们怎么就没想到?

但技术创新掩盖不了战略焦虑。

当美国收紧芯片出口管制,DeepSeek的算力底牌靠的将只能是提前囤积的1万张A100显卡。而如今面对禁售令升级,中国团队不得不用特供版H20芯片硬刚,性能缩水后或只能指望:「算法优化能解决一切」了。

也许,还有华为的升腾?

「灰犀牛」洗牌行业

这场争议暴露出AI军备竞赛的残酷真相:小模型逆袭的神话,本质是巨头们的技术溢出

DeepSeek的R1模型被扒出大量使用GPT-4生成数据,OpenAI的法务团队已磨刀霍霍准备起诉。

而Meta、Mistral等开源阵营更是集体破防——他们辛苦调教的小模型,转眼就被中国团队用RLHF(人类反馈强化学习)弯道超车。

需要关注的是算法进步与硬件消耗的死亡交叉——SemiAnalysis预测年底推理成本还将再降5倍,但代价是需要吞噬更多算力资源。

当Anthropic CEO达里奥说出「10倍算法进步抵得上100倍算力增长」时,不知道他有没有听见老黄在仓库数钞票的笑声。

而DeepSeek 的模型也证明了一个重要趋势:一个资金充足、重点突出的初创公司,完全有可能推动技术的边界。

在报告最后,SemiAnalysis 指出:

「说到底,成本只是故事的一部分。真正重要的是技术创新和其带来的影响。」

这场始于成本争议的风暴,正演变成中/美、开源/闭源等多方的角力。

而当这些闭源AI 实验室还在为「是否该相信中国公司的技术报告」吵得不可开交时,DeepSeek已经默默更新了招聘页:

「诚聘GPU芯片架构师,年薪上不封顶」。

报告链接:https://semianalysis.com/2025/01/31/deepseek-debates/

下为译文:

👇

DeepSeek辩论:中国产业领导力、真实训练成本、封闭模型的边际影响

DeepSeek的叙事风靡全球

过去一周,DeepSeek成为了全球热议的唯一话题。现在,DeepSeek的日均流量已经远远超过了Claude、Perplexity,甚至是Gemini。

然而,对于这一领域的紧密关注者来说,这并不是什么“新”新闻。我们早就[1] 谈论[2] DeepSeek[3] 很长时间了(每个链接都是一个例子)。虽然DeepSeek这家公司并不算新,但它所引发的疯狂炒作才是新鲜事。SemiAnalysis一直认为,DeepSeek非常有才华,而美国的广大公众一直没有关注它。当世界终于关注到它时,却是带着一种过度的热情,这种热情并没有反映出现实。

我们想强调的是,当前的叙事已经和上个月发生了翻转。就在上个月,规模法则被打破,我们揭穿了这一迷思[4],现在算法的改进进展得太快,这同样对Nvidia和GPU产生了负面影响。

当前的叙事是,DeepSeek非常高效,以至于我们不再需要更多的计算力,所有东西的计算能力都因为模型的变化而变得过剩。虽然Jevons悖论的炒作也过于夸大,但它更接近现实,模型已经引发了对H100和H200定价的实际需求变化。

High-Flyer和DeepSeek的故事

High-Flyer是一家中国对冲基金,是最早在交易算法中使用AI的公司之一。他们早早意识到了AI在金融以外领域的潜力,以及扩展能力的重要性。因此,他们不断增加GPU的采购量。经过对成千上万GPU集群模型的实验,High-Flyer在2021年投资了10,000个A100 GPU——当时还没有任何出口限制。这一投资收到了回报。随着High-Flyer的进步,他们意识到是时候在2023年5月分拆出“DeepSeek”了,目标是集中精力进一步推动AI能力的发展。High-Flyer全资资助了DeepSeek,因为当时外部投资者对AI并不感兴趣,主要担忧没有明确的商业模式。如今,High-Flyer和DeepSeek经常共享资源,无论是人力还是计算资源。

DeepSeek如今已经发展成为一个严肃而有组织的努力,远非媒体所称的“副项目”。我们相信,他们的GPU投资超过了5亿美元,即使考虑到出口控制的因素。

GPU现状

我们认为,DeepSeek大约拥有50,000个Hopper GPU,这并不等同于50,000个H100,如一些人所称。Nvidia根据不同的规定生产了不同版本的H100(H800,H20),目前只有H20可以供应给中国的模型提供商。需要注意的是,H800与H100有相同的计算能力,但网络带宽较低。

我们相信,DeepSeek大约拥有10,000个H800和10,000个H100。此外,他们还有许多H20的订单,在过去9个月里,Nvidia已经生产了超过100万个面向中国市场的GPU。这些GPU是High-Flyer和DeepSeek共同拥有的,并且在地理上有一定的分布。它们被用于交易、推理、训练和研究。有关更具体的详细分析,请参考我们的加速器模型[5]。

根据我们的分析,DeepSeek的总服务器资本支出约为16亿美元,其中与运营这些集群相关的成本为9.44亿美元。同样,所有AI实验室和超大规模公司拥有更多GPU用于各种任务,包括研究和训练,而非仅用于某个单独的训练过程,因为资源的集中化是一个挑战。X.AI是一个独特的AI实验室,所有GPU都集中在一个地方。

DeepSeek的员工招聘与文化

DeepSeek专门从中国本土招聘人才,不太关注过往的资历,更看重个人的能力和好奇心。DeepSeek定期在北京大学、浙江大学等顶尖高校举办招聘活动,许多员工都毕业于这些学校。角色通常没有预定义,员工被赋予极大的灵活性,甚至招聘广告中提到可以接触到成千上万的GPU且没有使用限制。他们极具竞争力,据说为有前途的候选人提供超过130万美元的年薪,远高于中国其他大科技公司和AI实验室如Moonshot。DeepSeek目前约有150名员工,但公司正在迅速增长。

历史表明,一个资金充足且专注的小型初创公司常常能够突破技术极限。DeepSeek没有像谷歌那样的官僚作风,且由于是自筹资金,可以快速推进想法。然而,像谷歌一样,DeepSeek(大部分时间)还是运行着自有的数据中心,并不依赖外部服务提供商。这为他们提供了更多的实验空间,使得他们能够在整个技术栈中进行创新。

我们相信,DeepSeek是目前唯一一家“开放权重”的实验室,超越了Meta的Llama计划、Mistral等竞争者。

DeepSeek的成本与性能

DeepSeek的价格和效率引发了本周的热议,最引人注目的新闻是DeepSeek V3的“600万美元”训练成本。这个说法是不准确的。这就像指着一个产品的某个部分并将其视为整个成本。预训练成本仅是总成本中的一小部分。

我们相信,预训练的数字远低于实际投入的金额。我们确信,他们的硬件支出已经超过了5亿美元,考虑到公司历史的发展。这些费用包括在模型开发期间对新架构的测试和改进的支出,其中包括许多人力和GPU小时数。DeepSeek的一个关键创新——多头潜在注意力(Multi-Head Latent Attention)——花费了几个月时间进行开发,并且耗费了一个团队的时间和大量的GPU资源。

“600万美元”的数字仅指预训练阶段的GPU成本,实际模型的总成本远远高于此。忽略了许多重要因素,如研发费用和硬件的总拥有成本(TCO)。例如,Claude 3.5 Sonnet的训练成本达数千万美元,如果那才是Anthropic所需的总成本,那么他们也不需要从谷歌筹集数十亿美元、从亚马逊筹集数十亿美元的资金了。这是因为,除了训练之外,他们还需要进行实验、开发新架构、清理数据、支付员工薪水等等。

V3的性能表现

V3无疑是一个令人印象深刻的模型,但值得强调的是——相对于什么来说“令人印象深刻”?许多人将V3与GPT-4o进行比较,指出V3超越了GPT-4o的表现。这的确是事实,但GPT-4o是在2024年5月发布的。而AI发展进展非常快,2024年5月已经是很久以前的事了。进一步来说,我们并不感到惊讶,因为经过一段时间后,使用更少的计算资源就能实现相当或更强的能力。推理成本的下降是AI进步的标志。

一个例子是,可以在笔记本电脑上运行的小型模型,其性能与 GPT-3 相当,而 GPT-3 需要超级计算机进行训练,并且推理时需要多个 GPU。换句话说,算法改进使得训练和推理同等能力的模型所需的计算量变得更少,这一模式不断重复上演。这一次,全世界之所以注意到,是因为它来自中国的一个实验室。但小型模型变得更强大的现象并不新鲜。

到目前为止,我们见证到的这一模式是,AI 实验室在绝对美元上花费更多,以获取更多的智能回报。估计算法进步每年约为 4 倍,这意味着每过一年,实现相同能力所需的计算量就减少 4 倍。Anthropic 的首席执行官 Dario 认为,算法的进展甚至更快,能够带来 10 倍的提升。就 GPT-3 质量的推理定价而言,成本已经下降了 1200 倍。

在研究 GPT-4 的成本时,我们也看到成本的类似下降,尽管这一变化出现在曲线的早期。虽然随着时间的推移,成本差异的减少可以通过不再保持能力恒定来解释,如上图所示。但在这种情况下,我们看到算法改进和优化创造了 10 倍的成本下降和能力提升。

需要明确的是,DeepSeek 的独特之处在于他们率先实现了这种成本和能力的水平。它们的独特之处在于发布了开放权重,但此前的 Mistral 和 Llama 模型也曾实现过这一点。DeepSeek 达到了这一成本水平,但到年底时,如果成本再下降 5 倍,也不要感到惊讶。

R1的表现是否与o1相媲美?

另一方面,R1能够取得与o1相当的结果,而o1仅在9月才发布。DeepSeek是如何在这么短的时间内赶超的呢?

答案是,推理是一种新的范式,具有更快的迭代速度和较低的计算需求,能够在较小的计算量下获得有意义的进展,与之前的范式相比,具有更大的潜力。正如我们在规模法则报告[6]中所概述的,之前的范式依赖于预训练,但随着技术的发展,预训练变得更加昂贵,并且很难在此过程中取得稳健的进展。

而新的范式则专注于通过合成数据生成和后训练中的强化学习(RL)来提升推理能力,这样可以用更低的价格更快地取得进展。较低的入门门槛和更容易的优化意味着DeepSeek能够比以往更快速地复制o1的方法。随着各方在这个新范式中的不断扩展,我们预计在追赶能力上的时间差距将会增大。

需要注意的是,R1论文中并没有提到所使用的计算资源。这并非偶然——生成用于后训练的合成数据需要大量计算资源,别提强化学习了。我们并不是在质疑R1的表现,事实上,R1追赶到推理前沿的速度确实令人印象深刻,特别是考虑到DeepSeek是中国公司且资源相对较少,成就更加令人称赞。

然而,R1提到的一些基准测试数据也存在误导性。将R1与o1进行比较并不容易,因为R1特别没有提到自己没有领先的基准数据。尽管R1在推理性能上与o1相当,但在许多指标上并非绝对胜出,在一些情况下甚至表现不如o1。

更不用说o3了。o3的能力显著超过了R1和o1。事实上,OpenAI最近公布了o3的结果,基准测试呈现出垂直增长的趋势。“深度学习已经触及了一个瓶颈”,但这又是另外一种情况。

谷歌的推理模型与R1不相上下

尽管R1备受关注,但一家市值达2.5万亿美元的美国公司在一个月前发布了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。该模型已经可以使用,并且通过API提供了一个更长的上下文长度,价格明显低于R1。

根据报告的基准测试,Flash 2.0 Thinking击败了R1,尽管基准测试并不能完全体现情况。谷歌仅发布了3个基准测试,因此这只是一个不完整的图景。尽管如此,我们认为谷歌的模型在许多方面与R1旗鼓相当,而它并没有得到任何宣传。这可能是由于谷歌的市场策略较为平淡,用户体验不佳,也可能是因为R1是中国的“黑马”。

需要明确的是,这些并不减少DeepSeek的杰出成就。DeepSeek作为一家快速发展的、资金充足、聪明且专注的初创公司,能够超越Meta等巨头,发布推理模型,这是值得称赞的。

技术成就

DeepSeek破解了代码,并解锁了领先实验室尚未实现的创新。我们预计,DeepSeek的任何发布改进几乎都会被西方实验室迅速模仿。

这些改进是什么?大多数架构上的成就特别与V3有关,它也是R1的基础模型。下面详细介绍这些创新。

训练(前训练和后训练)

DeepSeek V3在多标记预测(MTP)方面达到了前所未见的规模,这是一些额外的注意力模块,用于预测下几个标记,而不是单一标记。这提高了训练期间的模型表现,并且在推理时可以丢弃这些模块。这是一个算法创新,能够以较低的计算成本提高性能。

其他方面,如训练中的FP8精度,也已经被美国领先的实验室使用了好一段时间。

DeepSeek V3还是一个专家混合模型(MoE),这意味着它是由多个专门化的小型模型组成的大型模型,体现了一个突现行为。MoE模型面临的一个挑战是如何决定哪个标记由哪个子模型或“专家”处理。DeepSeek实现了一个“门控网络”,将标记平衡地路由到正确的专家,而不影响模型的表现。这意味着路由非常高效,在每个标记的训练中,模型的参数变化相对较少,这有助于提高训练效率,并降低推理成本。

尽管有观点认为专家混合模型(MoE)的效率提升可能会减少投资,Dario指出[8],更强大的AI模型带来的经济效益非常可观,任何节省的成本都会迅速被再投资用于构建更大的模型。MoE的效率提升不会减少整体投资,反而会加速AI模型的扩展。各大公司正专注于扩大模型规模,使其能够支持更多计算并在算法上变得更加高效。

就R1而言,它受益于拥有一个强大的基础模型(V3)。部分原因在于强化学习(RL)。在RL的训练中,有两个主要关注点:格式化(确保输出连贯)以及有用性和无害性(确保模型有用)。推理能力则是在对合成数据集进行微调时逐渐显现出来的。这**正如我们在规模法则文章中提到的[9]**,这也正是o1发生的事情。需要注意的是,R1论文中没有提到计算资源的使用量,这是因为如果提到计算量,可能会暴露出他们拥有比叙述中所提到的更多的GPU。如此规模的强化学习需要大量计算资源,尤其是用来生成合成数据。

另外,DeepSeek使用的一部分数据似乎来自OpenAI的模型,我们认为这将对从输出中提取数据的政策产生影响。根据现有的服务条款,这已经是非法的,但未来可能会出现一种新的趋势,类似于“了解客户”(KYC)机制,以防止这种“蒸馏”行为。

蒸馏

说到蒸馏,R1论文中最有趣的部分或许是能够通过微调将非推理的小型模型转化为推理模型,方法是使用推理模型的输出进行微调。该数据集包含了总计80万个样本,现在任何人都可以使用R1的CoT输出,制作属于自己的数据集,并通过这些输出来制作推理模型。我们可能会看到更多的小型模型展示出推理能力,从而提升小型模型[10]的性能。

多头潜在注意力(MLA)

MLA是DeepSeek在推理成本大幅下降中的关键创新。其原因是,MLA减少了每个查询所需的KV缓存量,约为标准注意力的93.3%。KV缓存是变压器模型中的一种内存机制,用于存储代表对话上下文的数据,从而减少不必要的计算。

正如我们在规模法则文章中所讨论的,KV缓存会随着对话上下文的增长而增加,造成显著的内存限制。大幅减少每个查询所需的KV缓存量,意味着每个查询所需的硬件也大大减少,从而降低了成本。

然而,我们认为DeepSeek目前提供推理服务的价格可能是为了抢占市场份额,而并非真正盈利。

谷歌的Gemini Flash 2.0 Thinking依然更便宜,而且谷歌不太可能以成本价提供该服务。MLA特别引起了美国领先实验室的关注。MLA是在2024年5月发布的DeepSeek V2中首次发布的。DeepSeek还通过H20在推理工作负载中获得了更多的效率,因为H20相比H100具有更高的内存带宽和容量。

此外,DeepSeek宣布与华为的合作,但目前关于Ascend计算的进展仍较少。

我们认为,最有趣的影响在于其对利润率的影响,以及这对整个生态系统的意义。

以下是我们对AI行业未来定价结构的展望,并详细说明了我们为什么认为DeepSeek正在通过补贴价格来获取市场份额,以及为何我们看到了Jevons悖论初步显现的迹象。我们还评论了出口管制的影响、以及中国如何应对DeepSeek可能的主导地位等问题。

JJJohn

来源:鸡声马蹄

相关推荐