摘要:DeepSeek-R大模型,成本价格低廉,在许多第三方测试中,该模型的表现也优于OpenAI的最新模型 o1,让硅谷震惊,甚至引发了Meta内部的恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
2025年1月20日,DeepSeek正式发布DeepSeek-R1模型,并同步开源模型权重。
DeepSeek-R大模型,成本价格低廉,在许多第三方测试中,该模型的表现也优于OpenAI的最新模型 o1,让硅谷震惊,甚至引发了Meta内部的恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
DeepSeek的良好变现吸引很多用户,以至于服务器几度被挤宕机。
今日,DeepSeek更是登顶苹果中国地区和美国地区应用商店免费App下载排行榜,并在美区下载榜上超越了ChatGPT。
微软CEO、谷歌前CEO等大佬高度评价DeepSeek
不少大佬都对DeepSeek评价颇高。
微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在世界经济论坛上谈到DeepSeek时表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地构建了一个开源模型,能够在推理计算时高效运行,而且在计算效率方面表现出色。我们必须非常非常认真地对待中国的AI进步。”
在最近的ABC节目中,谷歌前CEO埃里克·施密特(Eric Emerson Schmidt)改变了美国在AI方面保持了两到三年领先优势的看法。他表示过去6个月,中国以一种非同寻常的方式迎头赶上,其中一个项目就包括DeepSeek。
AI科技初创公司Scale AI创始人亚历山大·王(Alexandr Wang)也公开表示,中国人工智能公司DeepSeek的AI大模型性能大致与美国最好的模型相当。
Benchmark普通合伙人Chetan Puttagunta在最近的采访中表示,过去两周里人工智能团队真是开阔了眼界,用更少的资金创造了更多的可能性。以前要数亿美元才能做到前列,DeepSeek让我们看见用更少的资金就可以做到这一切。
著名投资公司A16z的创始人马克·安德森1月24日发文称,Deepseek-R1是他见过的最令人惊叹、最令人印象深刻的突破之一,而且还是开源的,它是给世界的一份礼物。
游戏科学创始人、《黑悟空》制作人冯骥发微博盛赞DeepSeek新推出的DeepSeek-R1模型。他表示自己使用R1仅5天,但已经认为DeepSeek“可能是个国运级别的科技成果”。
金沙江创投朱啸虎称DeepSeek是技术理想主义者的胜利。
外媒更是集体刷屏。英国《金融时报》1月25日报道称,中国小型AI初创公司DeepSeek震惊硅谷。
Business Insider报道称,DeepSeek-R1模型秉承开放精神,完全开源,为美国AI玩家带来了麻烦。
CNBC 40分钟专题报道
探讨DeepSeek对美国AI主导地位的冲击
1月24日,美国媒体CNBC推出了长达40分钟的节目,邀请了美国AI初创公司Perplexity首席执行官Aravind Srinivas来分析为何DeepSeek会引发人们对美国在AI领域的全球领先地位是否正在缩小的担忧。
“需求是发明之母”,Aravind Srinivas谈起DeepSeek,“因为他们必须想办法绕过限制,最终实际上打造出了效率更高的东西。”
在对话中,Aravind Srinivas不仅分析了DeepSeek对美国AI的影响,对DeepSeek的创新给予了较高的评价,没有一味搞对立,还是比较中肯的。
以下是对话原文(不影响原意的情况下翻译略有删改):
主持人:请描述中美之间的AI竞赛,以及其中的利害关系。
Aravind Srinivas: 首先,中国在与美国的竞争中存在很多劣势。第一,他们无法获得我们这里能够使用的所有硬件资源。他们基本上在使用比我们低端的GPU,几乎像是上一代的GPU。由于更大的模型往往更智能,这自然让他们处于劣势。
但另一方面,需求是发明之母。因为他们不得不寻找变通方案,最终他们实际上构建了更高效的解决方案。这就像说:“嘿,你们必须构建一个顶级模型,但我不会给你们资源,你们得自己想办法。”除非数学上证明这是不可能的,否则你总能尝试找到更高效的解决方案。这可能会让他们比美国找到更高效的解决方案。
当然,他们有开源模型,我们也可以在这里采用类似的东西。但他们培养的这种人才将逐渐成为他们的优势。目前,美国领先的开源模型是Meta的Llama系列,它非常出色,几乎可以在你的电脑上运行。尽管它在发布时接近GPT-4的水平,但最接近质量的模型是巨大的405B参数模型,而不是你可以在电脑上运行的70B模型。因此,仍然没有一个既小又便宜、快速且开源的模型能够与最强大的闭源模型相媲美。
然后,这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们只用了大约2048个H800 GPU,相当于1500到2000个H100 GPU,这比GPT-4通常训练的GPU数量少了20到30倍。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。
主持人:当你理解他们所做的一切时,你的惊讶是什么?
Aravind Srinivas: 我的惊讶是,当我阅读他们的技术论文时,他们提出了许多聪明的解决方案。首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易训练。主要原因是人们发现很难跟上OpenAI的步伐,尤其是在MoE架构上,因为存在很多不规则的损失峰值,数值不稳定,经常需要重新启动训练检查点。他们提出了非常聪明的解决方案来平衡这一点,而不需要额外的技巧。
他们还提出了8位浮点训练,至少在部分数值上。他们巧妙地确定了哪些部分需要高精度,哪些部分可以低精度。据我所知,8位浮点训练在美国并不常见,大多数训练仍然在16位进行,尽管有些人正在探索这一点,但很难做到正确。
由于需求是发明之母,他们没有那么多内存和GPU,因此他们找到了许多数值稳定的方法,使他们的训练能够顺利进行。他们在论文中声称,大部分训练是稳定的,这意味着他们可以随时重新运行这些训练,使用更多的数据或更好的数据。整个训练只花了60天,这非常惊人。
主持人:你刚才说你很惊讶。
Aravind Srinivas: 通常的认知是中国人擅长复制。如果我们停止在美国发表研究论文,停止描述我们的基础设施架构细节,停止开源,他们将无法赶上。但现实是,DeepSeek 3中的一些细节非常出色,我甚至不会惊讶Meta会借鉴其中的一些内容,并将其应用到Llama模型中。
这并不是说他们在复制,而是他们在创新。
主持人:我们并不完全知道他们训练的数据是什么,尽管它是开源的,我们知道一些训练方式,但并不是全部。有一种观点认为,它是基于ChatGPT的公开输出训练的,这意味着它只是复制品。但你说它超越了这一点,有真正的创新。
Aravind Srinivas: 是的,他们训练了14.8万亿个token。互联网上有太多ChatGPT生成的内容,如果你现在去看任何LinkedIn帖子或X帖子,大多数评论都是由AI写的。甚至在X上,有Grok推文增强器,LinkedIn上有AI增强器,Google Docs和Word中也有AI工具来重写你的内容。如果你在这些地方写了东西并复制粘贴到互联网上,自然会带有一些ChatGPT的训练痕迹。很多人甚至懒得去掉“我是一个语言模型”的部分。因此,这个领域很难控制。
所以我不会因为某些提示(比如“你是谁”或“你是哪个模型”)而忽视他们的技术成就。在我看来,这并不重要。
主持人:长期以来,我们认为中国在AI领域落后。这场竞赛对这场竞争有何影响?我们能说中国正在迎头赶上,还是已经赶上了?
Aravind Srinivas: 如果我们说Meta正在赶上OpenAI或Anthropic,那么同样的说法也可以用于中国赶上美国。事实上,我看到中国有更多论文试图复制OpenAI的成果,甚至比美国还多。DeepSeek能够使用的计算资源与美国的博士生相当。
主持人:你会将DeepSeek整合到Perplexity中吗?
Aravind Srinivas: 我们已经开始使用它了。他们有API,并且开源了,所以我们也可以自己托管它。使用它实际上让我们能够以更低的成本做很多事情。
但我在想的是,他们实际上能够训练出如此出色的模型,这对美国公司来说不再有借口不去尝试类似的事情。
主持人:你听到很多生成式AI领域的意见领袖,无论是研究还是创业方面,比如Elon Musk等人,都说中国无法赶上,因为赌注太大。谁主导了AI,谁就将主导经济,主导世界。你对中国证明自己能够做到的事情感到担忧吗?
Aravind Srinivas: 首先,我不确定Elon是否说过中国能赶上,我只知道他提到了中国的威胁。Sam Altman也说过类似的话,我们不能让中国赢。我的观点是,无论你做什么来阻止他们赶上,最终他们还是赶上了。需求是发明之母。更危险的是,他们拥有最好的开源模型,而所有美国开发者都在基于此构建。那样的话,他们将拥有用户心智份额和生态系统。
如果整个美国AI生态系统都依赖于中国的开源模型,那将是非常危险的。历史上,一旦开源软件赶上或超越了闭源软件,所有开发者都会迁移到开源。当Llama被构建并广泛使用时,人们曾质疑是否应该信任扎克伯格,但现在的问题是,我们是否应该信任中国?
Aravind Srinivas: 从某种意义上说,这并不重要,因为你仍然可以完全控制它,你可以在自己的计算机上运行它,你是模型的主人。但对于我们自己的技术人才来说,依赖别人的软件并不是一个好现象,即使它是开源的。开源也可能有一天不再开源,许可证可能会改变。因此,重要的是我们美国自己有人才在构建这些技术,这就是为什么Meta如此重要。
我认为Meta仍然会构建出比DeepSeek 3更好的模型,并将其开源。我们不应该把所有的精力都放在禁止他们、阻止他们上,而是应该努力超越他们,赢得竞争。这就是美国的方式,做得更好。
我们听到越来越多关于这些中国公司的消息,他们以更高效、更低成本的方式开发类似的技术。这确实让人感到压力。
Aravind Srinivas: 是的,如果你筹集了100亿美元,并决定将80%的资金用于计算机集群,那么你很难像那些只有500万美元预算的人一样,找到同样高效的解决方案。这并不是说投入更多资金的人没有尽力,他们只是试图尽快完成。
当我们说开源时,有很多不同的版本。有些人批评Meta没有公开所有内容,甚至DeepSeek本身也并不完全透明。你可以说开源的极限是能够完全复制他们的训练过程,但有多少人真的有资源做到这一点呢?相比之下,他们在技术报告中分享的细节已经比许多其他公司多得多。
主持人:当你想到DeepSeek做这件事的成本不到600万美元时,再想想OpenAI开发GPT模型花费了多少。这对闭源模型的生态系统轨迹、发展势头意味着什么?对OpenAI又意味着什么?
Aravind Srinivas: 很明显,我们将拥有一个开源版本,甚至比闭源版本更好、更便宜。OpenAI可能不会关心这是否由他们制作,因为他们已经转向了一个新的范式,称为o1系列模型。OpenAI的Ilya Sutskever曾说过,预训练已经遇到了瓶颈。这并不意味着扩展已经结束,而是我们在不同的维度上进行扩展,比如模型思考的时间、强化学习等。
OpenAI现在更专注于让模型在遇到新提示时进行推理、收集数据并与世界互动,使用各种工具。我认为这是未来的方向,而不仅仅是更大更好的模型。
Aravind Srinivas: 我认为DeepSeek也会将注意力转向推理,这就是为什么我对他们下一步的成果感到兴奋。
Aravind Srinivas: 那么,OpenAI的下一步是什么?我认为目前还没有人能够构建出类似o1的系统。尽管有人质疑o1是否真的值得,但在某些提示下,它的表现确实更好。至少他们在O3中展示的结果显示,它在竞争性编程中的表现几乎达到了AI软件工程师的水平。
主持人:这是否只是时间问题,互联网上充满了推理数据,DeepSeek也能做到?
Aravind Srinivas: 有可能,但没有人知道。在它实现之前,不确定性仍然存在。
主持人:到今年年底,推理领域是否会有多个玩家?
Aravind Srinivas:我绝对认为是这样。
主持人:我们是否正在看到大型语言模型的商业化?
Aravind Srinivas: 我认为我们会看到类似的轨迹,就像预训练和后训练系统逐渐商业化一样。今年会有更多的商业化,推理模型也会经历类似的轨迹。最初可能只有一两个玩家知道如何做到,但随着时间的推移,更多的玩家会加入。谁知道呢,OpenAI可能会在推理领域取得新的突破。
现在推理是他们的重点,但技术进步会不断发生。随着时间推移,今天的模型所具备的推理能力和多模态能力,将会以更低成本的开源模型形式出现。唯一不确定的是,像能够在推理时进行思考的模型,是否能够便宜到足以在我们的手机上运行。
主持人:感觉随着DeepSeek所证明的能力,整个AI领域的格局已经发生了变化。你能称之为中国的ChatGPT时刻吗?
Aravind Srinivas: 有可能。我认为这无疑给了他们很多信心,表明他们并没有落后。无论你如何限制他们的计算资源,他们总能找到变通方案。我相信团队对他们的成果感到非常兴奋。
主持人:这如何改变投资格局?那些每年花费数百亿美元在计算资源上的超大规模公司,以及OpenAI和Anthropic等筹集数十亿美元用于GPU的公司,DeepSeek告诉我们,你并不一定需要那么多资源。
Aravind Srinivas: 我认为很明显,他们会更加专注于推理,因为他们明白,无论他们过去两年在构建什么,现在都变得非常便宜,以至于继续投入大量资金不再合理。他们是否需要同样多的高端GPU,还是可以使用DeepSeek那样的低端GPU进行推理?这很难说,除非被证明不行。
但在快速前进的精神下,你可能会希望使用高端芯片,以便比竞争对手更快。最优秀的人才仍然希望加入那些最先实现突破的团队。总有一些荣耀属于真正的先驱者,而不是快速跟随者。
主持人:这有点像Sam Altman的推文,暗示DeepSeek只是复制了别人的成果。
Aravind Srinivas: 但你也可以说,在这个领域,每个人都在复制别人。你可以说Google最先提出了Transformer,OpenAI只是复制了它。Google构建了第一个大型语言模型,但没有优先发展它,而OpenAI则将其作为优先事项。所以你可以说这些,但在很多方面,这并不重要。
主持人:我记得我问过你,为什么你不想构建模型。你说那是一场极其昂贵的竞赛,而现在一年后,你看起来非常聪明,没有卷入这场竞争。你现在在大家想要看到的领域——生成式AI的杀手级应用——占据了领先地位。请谈谈这个决定,以及你如何看待Perplexity的未来。
Aravind Srinivas: 一年前,我们甚至没有像GPT-3.5这样的模型。我们有GPT-4,但没有人能够赶上它。我的感觉是,如果那些拥有更多资源和更多才华的人都无法赶上,那么参与这场游戏是非常困难的。所以我们决定玩一个不同的游戏。无论如何,人们都想使用这些模型,而一个方向是提出问题并获得准确的答案,附带来源和实时信息。
在模型之外,确保产品可靠运行、扩展使用规模、构建自定义UI等方面还有很多工作要做。我们会专注于这些,并受益于模型变得越来越好。事实上,GPT-3.5让我们的产品变得非常好。如果你在Perplexity中选择GPT-3.5作为模型,几乎很难找到幻觉。这并不是说它不可能发生,但它大大减少了幻觉的发生率。
这意味着,提问、获得答案、进行事实核查、研究、询问任何信息的问题,几乎所有的信息都在网上,这是一个巨大的解锁。这帮助我们在过去一年中用户量增长了十倍。我们在用户方面取得了巨大进展,很多大投资者都是我们的粉丝,比如黄仁勋,他在最近的主题演讲中提到了我们,他实际上是一个经常使用的用户。
主持人:一年前,我们甚至没有谈论商业化,因为你们还很新,只想扩大规模。但现在你们正在考虑广告模式。
Aravind Srinivas: 是的,我们正在尝试。我知道这引起了一些争议,比如为什么我们要做广告,是否可以在有广告的情况下仍然提供真实的答案。在我看来,我们一直非常积极地思考这个问题。我们说过,只要答案始终准确、无偏见,并且不受广告预算的影响,你只会看到一些赞助问题。甚至这些赞助问题的答案也不受广告影响。
广告商也希望你知道他们的品牌,并了解他们品牌的最佳部分,就像你在介绍自己时希望别人看到你最好的一面一样。但你仍然不必点击赞助问题,你可以忽略它。我们目前只按CPM收费,所以还没有激励你去点击。
考虑到所有这些,我们实际上是在尝试长期做对的事情,而不是像Google那样强迫你点击链接。
主持人:我记得一年前人们谈论模型商品化时,你认为这是有争议的,但现在这不再有争议了。这种情况正在发生,你关注这一点是明智的。
Aravind Srinivas: 顺便说一句,我们从模型商品化中受益匪浅,但我们还需要为付费用户提供一些额外的价值,比如一个更高级的研究代理,能够进行多步推理,进行15分钟的搜索,并给出分析类型的答案。所有这些都将保留在产品中,不会有任何变化。
但免费用户每天提出的1万亿个问题需要快速回答,这些必须保持免费。这意味着我们需要找到一种方法,使这些免费流量也能够货币化。
主持人:你并不是试图改变用户习惯,但你正在试图教广告商新的习惯。他们不能像在Google的蓝色链接搜索中那样获得一切。到目前为止,广告商的反应如何?他们愿意接受这些权衡吗?
Aravind Srinivas: 是的,这就是为什么他们在尝试与我们合作。许多品牌都在与我们合作测试。他们也很兴奋,因为无论喜欢与否,未来大多数人都将通过AI提问,而不是传统的搜索引擎。每个人都明白这一点,所以他们都希望成为新平台、新用户体验的早期采用者,并从中学习,共同构建未来。
主持人:我笑了,因为这完美地回到了你今天一开始提到的观点:需求是发明之母。广告商们正在看到这个领域的变化,他们必须学会适应。
Aravind Srinivas: 没错,这就是广告商们正在做的事情,他们说这个领域正在变化,我们必须学会适应。
主持人:好的,Aravind,我占用了你这么多时间,非常感谢你抽出时间。
Aravind Srinivas: 谢谢你。
来源:新浪财经