deepseek 600 万美元的训练成本到底是啥?

B站影视 2025-01-30 13:15 2

摘要:首先,这个数据的最原始出处是 deepseek V3 的技术报告 ( https://arxiv.org/html/2412.19437v1 ) 里提到的,这是一切后续纷繁复杂的舆论的起点:

首先,这个数据的最原始出处是 deepseek V3 的技术报告 ( https://arxiv.org/html/2412.19437v1 ) 里提到的,这是一切后续纷繁复杂的舆论的起点:

在详细解释之前,我先下一个最终结论,deepseek 给出的这个数字没有任何问题,并且也不存在后续各种解读中提到的“虚报”“恶意压低”“作假”这样的动机。

然后,我们来看看为什么后续舆论开始走形。整个舆论的走向大概分为几个阶段:

技术报告发布,行业内讨论

行业内的人对这个数字整体上是没有任何疑问的,因为在确定了模型参数规模以及训练数据量后,训练成本是可以直接算出来的,这个在业内都不会有什么异议。

并且为了方便学术和行业交流,绝大部分的技术报告在提到训练成本时,都是按照这样的算法给出单次训练成本,因为只有这样的数字才具备可比性,让其他团队方便评估训练难度和复现可能性。不然把上下游所有变量(卡储备、人员工资、失败的尝试、基础研究、数据采买、办公室零食、……)引入进来,就失去了交流的意义。

并且最重要的, deepseek 丝毫没有去混淆视听,直接在上面的表格下面就写了这段话:

R1 火爆出圈,媒体介入

R1 过于火爆,国外社交网络上的 KOL 和部分媒体开始寻找话题来蹭流量,这个过程中他们挖掘了几个点,大多都和现实不符,但符合舆论传播的流量需求(主要还是因为他们对中国环境实在太不熟悉了)。比如:

罗福莉,其实已经去了小米,但因为是年轻女生,硬把她描绘为 deepseek 背后的秘密武器。

R1 只是中国一个量化基金的 side project,一不小心就干到全球第一了。事实上我们国内的从业者从来都不会觉得 deepseek 是一个 side project。

训练成本只要 600 万美元,秒杀 Meta 这些美国大厂,我们美国到底怎么了?!

民间舆论发酵,讨论彻底跑偏

以上提到的 a、b、c 三个谬误直接把美国那边的民间舆论带偏了,尤其是 c,因为很多不懂行的 KOL 和媒体在描绘 c 时,直接忽略了(我觉得就是压根没看)deepseek 技术报告中的原文,同时也不懂这个训练成本的计算方式在行业里的惯用定义是什么。最终传播的观点经过几步演化:

deepseek 用了 600 万就干了 Meta Llama 模型几千万的活儿。这还算是懂一点点的,是在对比单次训练成本。

deepseek 用了 600 万就干了美国公司几个亿的活儿。这已经开始离谱了,加上了人员工资以及上下游开销。

deepseek 用了 600 万就干翻了美国融资几十亿的公司。这直接变成神话了。

真相已经不再重要,屁股决定脑袋

舆论演化到 c 之后,各种人士都下场了,从地缘政治到两国教育、产业发展路线、企业管理思路,啥人都可以来就这个话题说两句。但已经没人关心 deepseek 最初始的表达到底是什么了,他们在辩论的是自己心中的那个靶子。AI 学术界和产业界的领袖在这个阶段还在试图给公众舆论解释,但缺乏有力的表达,并且后期明显泄气以及参杂进各自的利益考虑,甚至有的人开始迎合这种叙事去达成自己的目的。

整件事的起点就是一篇特别优秀的技术报告,其中报告了一个在业界看来特别正常的数字。最终因为 R1 爆火,进入公共舆论领域,配合上地缘政治的敏感议题,媒体流量饥渴,让讨论彻底失控。

但噪音会随着时间逐渐消减,那篇技术报告本身会跨越这些喧嚣对这个世界产生持续的影响。这是真正的创造,让能体会到其美丽的人视为珍宝。希望你也能感受到这种美好。

来源:新浪财经

相关推荐