摘要:一个很好的例子就是中国的人工智能模型 DeepSeek R1。这是一个复杂的问题解决模型,可与 OpenAI 的 o1 相媲美。据《华尔街日报》报道,后者“在性能上跃升至全球前十名”,但其构建速度更快,使用的人工智能芯片更少、性能更低,成本也低得多。
美国限制中国使用英伟达最先进人工智能芯片的政策,无意中帮助中国人工智能开发商超越了可以全面使用该公司最新芯片的美国竞争对手。
这证明了初创公司往往比大公司更成功的一个基本原因:稀缺性催生创新。
一个很好的例子就是中国的人工智能模型 DeepSeek R1。这是一个复杂的问题解决模型,可与 OpenAI 的 o1 相媲美。据《华尔街日报》报道,后者“在性能上跃升至全球前十名”,但其构建速度更快,使用的人工智能芯片更少、性能更低,成本也低得多。
R1 的成功应该会让企业受益。这是因为,当有更便宜的 AI 模型可用时,企业认为没有理由为有效的 AI 模型支付更多费用,而且这种模型可能会改进得更快。
“OpenAI 的模型在性能上是最好的,但我们也不想为不需要的功能付费,”硅谷一家使用生成式人工智能预测财务回报的初创公司的联合创始人 Anthony Poo 向《华尔街日报》表示。
据《华尔街日报》报道,去年 9 月,Poo 的公司放弃了 Anthropic 的 Claude,转而使用 DeepSeek,因为测试显示 DeepSeek“性能类似,但成本仅为其四分之一左右” 。
去年夏天,当我出版《Brain Rush》一书时,我担心美国生成式人工智能的未来过于依赖大型科技公司。我将这一点与互联网泡沫时期美国初创企业的创造力进行了对比——当时催生了 2,888 家公司首次公开募股 (而美国生成式人工智能初创企业没有进行过 IPO)。
DeepSeek 的成功可能会鼓励美国大型语言模型开发商出现新的竞争对手。如果这些初创公司用更少的芯片构建强大的 AI 模型并更快地将改进推向市场,那么 Nvidia 的收入增长可能会放缓,因为 LLM 开发人员会复制 DeepSeek 使用更少、更不先进的 AI 芯片的策略。
Nvidia 发言人在 1 月 26 日的一封电子邮件中写道:“我们拒绝发表评论。”
DeepSeek 给一位美国著名风险投资家留下了深刻印象。“Deepseek R1 是我见过的最令人惊叹、最令人印象深刻的突破之一”,硅谷风险投资家马克·安德森 (Marc Andreessen) 在 1 月 24 日的 X 帖子中写道。
公平地说,DeepSeek 的技术落后于 OpenAI 和谷歌等美国竞争对手。然而,该公司 1 月 20 日推出的 R1 型号“尽管使用更少、更不先进的芯片,并且在某些情况下跳过了美国开发商认为必不可少的步骤,但仍是其有力的竞争对手”,《华尔街日报》指出。
由于部署生成式人工智能的成本高昂,企业越来越怀疑是否有可能获得正投资回报。正如我去年4 月所写,这项技术的投资可能超过 1 万亿美元,但杀手级应用尚未出现。
因此,企业对降低所需投资的前景感到兴奋。由于 R1 的开源模式效果很好,而且比 OpenAI 和 Google 的模式便宜得多,因此企业对此非常感兴趣。
为什么会这样?R1 是 HuggingFace 上下载量最高的模型,据VentureBeat称,下载量达 109,000 次,并且 “与 OpenAI 的 o1 相当,但成本仅为 o1 的 3%-5%”。R1 还提供了一项搜索功能,用户认为该功能优于 OpenAI 和 Perplexity,“并且只有谷歌的 Gemini Deep Research 可以与之匹敌”,VentureBeat指出。
DeepSeek 开发 R1 的速度更快,成本也低得多。据《华尔街日报》报道,DeepSeek 表示,其最新模型之一的训练成本为 560 万美元,远低于 Anthropic 首席执行官 Dario Amodei 在 2024 年提出的 1 亿至 10 亿美元的模型训练成本。
《华尔街日报》指出,为了训练其 V3 模型,DeepSeek 使用了超过 2,000 个 Nvidia 芯片的集群,“而训练类似规模的模型则需要数万个芯片” 。
《华尔街日报》报道称,加州大学伯克利分校研究人员主办的平台 Chatbot Arena 的独立分析师于 1 月 25 日将 V3 和 R1 模型评为聊天机器人性能前 10 名。
DeepSeek 的首席执行官是梁文峰,他管理着一只规模达 80 亿美元的对冲基金。《金融时报》指出,他的对冲基金 High-Flyer 使用人工智能芯片来构建算法,以识别“可能影响股价的模式” 。
梁的局外人身份帮助他取得了成功。2023 年,他推出了 DeepSeek,以开发人类级别的人工智能。“梁建立了一支出色的基础设施团队,真正了解芯片的工作原理,”竞争对手 LLM 公司的一位创始人告诉《金融时报》。“他把对冲基金中最优秀的人才带到了 DeepSeek。”
华盛顿禁止 Nvidia 向中国出口 H100(Nvidia 最强大的芯片)时,DeepSeek 受益匪浅。据CNBC报道,这迫使本地 AI 公司围绕计算能力有限的本地芯片 Nvidia H800 的稀缺性进行设计。《金融时报》指出,梁的团队“已经知道如何解决这个问题” 。
微软对 DeepSeek 的成就印象深刻。“DeepSeek 的新模型非常令人印象深刻,他们不仅有效地开发出一种开源模型,实现了推理时间计算,而且计算效率极高,”首席执行官萨蒂亚·纳德拉 1 月 22 日在世界经济论坛上表示。“我们应该非常认真地对待中国的发展。”
DeepSeek 的突破会减缓对 Nvidia 芯片的需求增长吗?
DeepSeek 的成功应该会刺激美国人工智能政策的改变,同时也会让 Nvidia 的投资者更加谨慎。
美国对 Nvidia 的出口限制给 DeepSeek 等初创公司带来了压力,迫使它们优先考虑效率、资源池和协作。DeepSeek 前员工、西北大学计算机科学系现任博士生 Zihan Wang 告诉《麻省理工技术评论》,为了创建 R1,DeepSeek 重新设计了其训练流程,以利用 Nvidia H800 较低的处理速度(仅为 H100 的一半)。
一位 Nvidia 研究员对 DeepSeek 的成果十分满意。DeepSeek 报告成果的论文让人回想起那些掌握国际象棋等棋盘游戏的先驱人工智能程序,这些程序是“从零开始构建的,没有先模仿人类大师”,Nvidia 高级研究员 Jim Fan 在《华尔街日报》的 X 上表示。
DeepSeek 的成功会抑制 Nvidia 的增长速度吗?我不知道。但是,根据我的研究,企业显然想要能够带来回报的强大生成式 AI 模型。随着企业寻求高回报的生成式 AI 应用程序,如果构建这些应用程序的成本和时间较低,他们将能够进行更多实验。
这就是为什么 R1 的低成本和更短的运行时间应该会继续吸引更多商业兴趣。DeepSeek 能够满足企业需求的关键在于它能够优化性能较弱的 GPU,而这些 GPU 的成本低于最先进的芯片。
如果更多的初创公司能够复制 DeepSeek 所取得的成就,那么对 Nvidia 最昂贵芯片的需求可能会减少。
我不知道如果发生这种情况,Nvidia 会如何应对。然而,从短期来看,这可能意味着收入增长减少,因为遵循 DeepSeek 战略的初创公司将使用更少、更便宜的芯片来构建模型。
来源:智慧芯片