Stability AI 前研究主管:揭穿围绕DeepSeek的5个谣言或误解

B站影视 2025-02-05 16:58 3

摘要:DeepSeek 相关的谣言如潮水般涌来,令人应接不暇。DeepSeek R1 这款先进大模型仿佛 “横空出世”,瞬间点燃了全球讨论的热度。人们围绕它展开了无休无止的热议,从其模型能力是否真的出类拔萃,到训练成本是否真如所言仅 550W,再到背后神秘的研究团队

DeepSeek 相关的谣言如潮水般涌来,令人应接不暇。DeepSeek R1 这款先进大模型仿佛 “横空出世”,瞬间点燃了全球讨论的热度。人们围绕它展开了无休无止的热议,从其模型能力是否真的出类拔萃,到训练成本是否真如所言仅 550W,再到背后神秘的研究团队,每一个话题都备受瞩目。

尽管 R1 选择开源,可这并未阻挡夸张猜测的泛滥。有人断言其实际训练算力远远超过论文所述,有人对 R1 的技术创新性提出质疑,更有甚者声称 DeepSeek 背后隐藏着做空的目的……

终于,知名生成式 AI 创业公司 Stability AI 的前研究主管 Tanishq Abraham 看不下去了。近日,他撰写文章,试图戳破这些围绕 DeepSeek 的不实言论,还原事实真相。以下是他的辟谣全文:

2025 年 1 月 20 日,一家名为DeepSeek的中国 AI 公司开源并发布了他们的推理模型 R1。这个模型与其他所有开源 LLM 的不同之处在于以下几点:

性能实际上与 OpenAI 的 o1 一样好,这是一个前沿模型,标志着开源首次真正赶上闭源与其他前沿模型相比,这是以相对较低的训练预算完成的易于使用的用户界面,加上良好的用户体验以及网站和应用程序中清晰可见的思路链,吸引了数百万新用户

鉴于 DeepSeek 是一家中国公司,美国及其 AGI 公司存在各种“国家安全问题”。因此,有关该模型的错误信息泛滥成灾。这篇博文的目的是反驳自 DeepSeek 发布以来许多与人工智能相关的极其糟糕的言论,并以一名在生成式人工智能领域工作的人工智能研究人员的身份提供客观的看法。

让我们开始吧!

完全错误,到 2025 年 1 月,几乎所有生成式 AI 研究人员都已经听说过 DeepSeek。DeepSeek 甚至在完整版发布前几个月就预览了R1!

传播这种神话的人很可能并不从事人工智能工作,如果你没有积极参与某个领域,就认为自己了解该领域发生的一切,这是荒谬且极其自命不凡的。

DeepSeek 的首批开源模型于 2023 年 11 月发布,它们是最先进的编码 LLM(DeepSeek-Coder)。如下图所示,DeepSeek 在一年的时间里持续交付,达到 R1:

deepseek 进度图

所以这不是一夜之间的成功,他们的进步速度也没有什么可疑的。人工智能领域发展如此迅速,而且他们的团队显然很精干,一年内取得如此大的进步对我来说是合理的。

如果你想知道还有哪些公司不为公众所知,但在人工智能领域却备受看好,我会研究Qwen (阿里巴巴)、YI (01.AI)、Mistral、Cohere和AI2。我要指出的是,它们都没有像 DeepSeek 那样持续推出 SOTA 模型,但它们都有潜力发布一流的模型,正如它们过去所展示的那样。

好吧,这是一个有趣的问题。有人声称 DeepSeek 在模型训练的真实成本上撒了谎,以避免承认他们通过非法的暗箱交易获取他们不应该获得的计算(由于出口管制)。

首先,值得了解一下这个 600 万美元的数字从何而来。DeepSeek-V3论文中提到了这一点,该论文在 DeepSeek-R1 论文发布前一个月发布:

深度搜索成本

DeepSeek-V3 是 DeepSeek-R1 的基础模型,这意味着 DeepSeek-R1 是 DeepSeek-V3 加上一些额外的强化学习训练。因此从某种意义上说,成本已经不准确,因为没有考虑到强化学习训练的额外成本。但这可能只需要花费几十万美元。

那么,DeepSeek-V3 论文中 550 万美元的说法是否不正确?基于GPU 成本、数据集大小和模型大小的大量 分析都得出了类似的大致估计。请注意,虽然 DeepSeek V3/R1 是一个 671B 参数模型,但它是一个 专家混合模型,这意味着模型的任何函数调用/前向传递仅使用约 37B 参数,这是用于计算训练成本的值。

但是,请注意,DeepSeek 报告的是根据这些 GPU 的当前市场价格估算的成本。我们实际上并不知道他们的 2048 H800 GPU 集群(注意:不是 H100,这是一个常见的误解和混淆!)的成本是多少。通常,连续的 GPU 集群一起购买时成本较低,因此甚至可能更便宜。

但问题是,这是最终运行的成本。为了完成最终运行,需要进行许多小规模的实验和消融,这可能会花费大量资金,但这里没有报告。

除此之外,可能还有许多其他成本,例如研究人员的工资。SemiAnalysis报告称,据传 DeepSeek 研究人员的工资约为 100 万美元。这与 OpenAI 或 Anthropic 等 AGI 前沿实验室的较高工资相当。

通常,在报告和比较不同模型的训练成本时,他们总是关注最终的训练运行成本。但由于话语不畅和错误信息的传播,人们一直在争论说,额外的成本损害了 DeepSeek 的廉价成本和其运作的高效性。这非常不公平。其他 AGI 前沿实验室的消融/实验和研究人员工资方面的额外成本相当可观,但这些通常不会在这样的讨论中提及!

好吧,我认为这又是一个相当愚蠢的想法。与许多其他法学硕士相比,DeepSeek 在训练方面的效率肯定要高得多。是的,许多美国前沿实验室的计算效率很可能很低。然而,这并不一定意味着拥有更多的计算是一件坏事。

老实说,每当我听到这样的说法时,我都很清楚他们不理解扩展定律,也不理解 AGI 公司 CEO 的思维方式(任何被视为 AI 专家的人都应该理解这些事情)。让我就这个话题发表一些看法。

扩展定律表明,只要我们继续在模型中投入更多计算,我们就能获得越来越好的性能。当然,扩展人工智能的具体方法和方面随着时间的推移而发生了变化:首先是模型大小,然后是数据集大小,现在是推理时间计算和合成数据。尽管如此,自 2017 年第一代 Transformer 问世以来,更多计算=更好性能的总体趋势似乎一直保持不变。

更高效的模型意味着您可以在给定的计算预算下获得更高的性能,但计算量越大越好。更高效的模型意味着您可以用更少的计算量做更多的事情,但用更多的计算量做更多的事情!

现在,您可能对缩放定律有自己的看法。您可能认为即将出现瓶颈。您可能会认为,正如金融界所言,过去的表现并不能代表未来的结果。但坦率地说,如果您想了解最大的 AGI 公司正在采取的行动,这并不重要。所有最大的 AGI 公司都在押注缩放定律,希望它能够持续足够长的时间,以达到 AGI 和 ASI。这是他们全心全意的信念。如果他们深信这一点,那么唯一合乎逻辑的举措就是获得更多的计算能力。

(就我个人而言,我非常相信“缩放药丸”,但我愿意接受其他证据)

现在你可能会说 NVIDIA GPU 很快就会过时,看看 AMD、Cerebras、Graphcore、TPU、Trainium 等等的表现。有上百万种 AI 专用硬件产品都在试图与 NVIDIA 竞争。其中之一可能会在未来获胜。在这种情况下,也许这些 AGI 公司会转向它们。但这与 DeepSeek 的成功完全无关。

(就我个人而言,鉴于 NVIDIA 目前的市场主导地位和持续的创新水平,我并没有看到非常有力的证据表明其他公司将推翻 NVIDIA 在 AI 加速器芯片领域的主导地位。)

所以总的来说,我看不出 DeepSeek 有什么理由意味着你应该看跌 NVIDIA。你可能因为其他原因而看跌 NVIDIA,这些原因可能是合理和正确的,但 DeepSeek 在我看来似乎不是正确的理由。

错了。语言模型的设计和训练方式有很多创新,其中一些比其他的更重要。以下是其中一些(不是完整的列表,请阅读 DeepSeek-V3 和 DeepSeek-R1 论文了解更多详细信息):

多隐性注意力 - LLM 通常是 Transformer,它利用了所谓的多头注意力 (MHA) 机制。DeepSeek 团队开发了一种 MHA 机制的变体,它不仅更节省内存,而且性能也更好。具有可验证奖励的 GRPO - 自 o1 发布以来,AI 社区一直在尝试复制它。由于 OpenAI 对其工作原理一直讳莫如深,社区不得不探索各种不同的方法来实现类似 o1 的结果。有各种方向,例如蒙特卡洛树搜索(Google DeepMind 用来赢得围棋比赛的方法),但结果并不像最初预期的那样有希望。另一方面,DeepSeek 展示了一个非常简单的强化学习 (RL) 管道实际上可以实现类似 o1 的结果。最重要的是,他们开发了自己的常见PPO RL 算法变体,称为 GRPO,该算法更高效、性能更好。我想 AI 社区中的许多人都在想,为什么我们以前不尝试一下呢?DualPipe - 在多个 GPU 上训练 AI 模型时,需要考虑很多效率方面的问题。您需要弄清楚模型和数据集如何在所有 GPU 上分配,数据如何在 GPU 中流动等。您还需要减少 GPU 之间的数据传输,因为数据传输速度非常慢,最好在每个 GPU 上尽可能多地处理数据。无论如何,有很多方法可以设置这种多 GPU 训练,DeepSeek 团队设计了一种效率更高、速度更快的新方法,称为 DualPipe。

我们非常幸运,DeepSeek 完全开源并详细记录了这些创新,这与美国的 AGI 公司不同。现在,每个人都可以利用这些进步来受益并改进自己的 AI 模型训练。

大卫·萨克斯(David Sacks,美国政府的人工智能和加密沙皇)和OpenAI声称DeepSeek 正在使用一种名为蒸馏的技术从 ChatGPT 中“吸取知识”。

首先,蒸馏这个术语在这里使用得非常奇怪。通常,蒸馏是指对所有可能的下一个单词(token)的全概率(logits)进行训练,但 ChatGPT 甚至没有公开这些信息。

但是好吧,假设我们正在谈论对 ChatGPT 生成的文本进行训练,尽管这不是该术语的典型用法。

OpenAI 及其员工声称 DeepSeek 自己使用 ChatGPT 生成文本并对其进行了训练。他们没有提供任何证据,但如果这是真的,那么 DeepSeek 显然违反了 ChatGPT 服务条款。我认为这一事件的法律后果尚不清楚,尤其是对于一家中国公司而言,但我对此了解不多。

请注意,这仅适用于 DeepSeek 自己生成训练数据的情况。如果 DeepSeek 使用来自其他来源的 ChatGPT 生成的数据(目前有许多公开数据集),我的理解是,这种形式的“提炼”或合成数据训练不受 TOS 禁止。

尽管如此,在我看来,这并没有削弱 DeepSeek 的成就。作为一名研究人员,让我印象深刻的不是 DeepSeek 的效率,而是他们对 o1 的复制。我非常怀疑对 ChatGPT 进行“提炼”会有什么帮助,因为 o1 CoT 思维过程从未公开过,那么 DeepSeek 又如何能够学习它呢?

此外,许多 LLM 确实对 ChatGPT(和其他 LLM)合成数据进行训练,而且任何新的互联网抓取数据中自然都会有 AI 文本。

总体而言,认为 DeepSeek 模型表现良好是因为它只是简单地提炼了 ChatGPT 的说法忽略了其工程、效率和架构创新的现实,正如 DeepSeek 的技术报告中所详述的那样。

也许有一点?坦率地说,从现在到 2 个月前,中美人工智能竞赛并没有太大变化。相反,外界的反应相当激烈,这确实可能通过资金、监管等方面的变化影响整个人工智能格局。

中国人在人工智能领域一直具有竞争力,但 DeepSeek 让他们现在变得无法被忽视。

关于开源的典型论点是,由于中国落后,我们不应该公开分享我们的技术,以便他们赶上来。但显然中国已经赶上来了,坦率地说,他们前段时间就做到了,而且他们在开源方面实际上处于领先地位,因此尚不清楚封锁我们的技术是否真的有很大帮助。

请注意,OpenAI、Anthropic 和 Google DeepMind 等公司肯定拥有比 DeepSeek R1 更好的模型。例如,OpenAI 的o3 模型的基准测试结果非常令人印象深刻,他们可能已经完成了另一个后续模型的开发。

除此之外,随着星际之门计划和 OpenAI即将进行的融资等大量额外投资,OpenAI 和其他美国前沿实验室将拥有充足的计算能力,从而保持领先地位。

当然,中国将向人工智能开发投入大量额外资金。因此,总体而言,竞争正在升温!但我认为,美国 AGI 前沿实验室保持领先地位的道路仍然非常有希望。

一方面,一些人工智能专家,尤其是 OpenAI 的一些专家,试图低估 DeepSeek。另一方面,一些专家和自称专家的人对 DeepSeek 的反应是夸大其词,甚至是危险的。不,OpenAI/Anthropic/Meta/Google/xAI/NVIDIA/等还没有结束。不,DeepSeek(可能)没有就他们所做的事情撒谎。话虽如此,DeepSeek 值得认可,R1 是一个令人印象深刻的模型。

最后,我想指出的是,这里讨论的内容还有更多的细微差别和细节。但我希望这篇文章能成为您自己探索这些主题的一个有用的起点。如果其他来源分享了这些毫无细微差别的谎言,您可以放心地忽略它们。但是有各种更深入的讨论,比如Teortaxes、SemiAnalysis等人,一定要看看!

来源:人工智能学家

相关推荐