摘要:列宁曾多次被引用(可能是误引)说:“有时候几十年里什么都没发生,有时候几周里发生了几十年的事情。”无论这句话的出处是否准确,本周无疑将被历史铭记为后者。本周早些时候,深度求索人工智能有限公司(DeepSeek Artificial Intelligence C
► 文 蒋宏达
列宁曾多次被引用(可能是误引)说:“有时候几十年里什么都没发生,有时候几周里发生了几十年的事情。”无论这句话的出处是否准确,本周无疑将被历史铭记为后者。本周早些时候,深度求索人工智能有限公司(DeepSeek Artificial Intelligence Co., Ltd.)——中国对冲基金“幻方量化”(High-Flyer Quant)的子公司——发布了其最新版本的大语言模型(LLM)——DeepSeek R1。
自ChatGPT在消费者中普及以来,全球各大科技巨头一直在开发自己的大语言模型,无论是Meta的Llama、X的Grok、Anthropic的Claude,还是北京零一科技的01.AI。深度求索的模型之所以能够超越上述竞争对手,是因为它能够在所有基准测试类别中达到可比甚至更优的性能,同时花费的时间和资金仅为次优竞争对手的一小部分。作为参考,深度求索据报道花费了大约600万美元来训练其模型,使用了约280万GPU小时,动用了2000多块英伟达H800 GPU(其运行速度约为英伟达最先进的H100系列的1/6)。它在不到两个月的时间内完成了这一壮举。这比次便宜的模型——Llama 3(至少花费了7000万美元)——的成本低了90%,比次快的非中国竞争对手——OpenAI的GPT-4(大约花费了5000万到6000万GPU小时)——的GPU小时数少了94%,尽管后者拥有远超深度求索H800的顶级英伟达GPU。更令人振奋的是,深度求索的许多功能和特性都在“MIT许可证”下开源,这意味着任何人都可以免费且不受限制地复制、修改和分发相关软件和文档。
这是仍处于初期阶段的大语言模型行业的一个革命性里程碑,这一事件有几个明显的战略影响:
1、美国对中国的半导体制裁已彻底失败。自特朗普政府2017年底首次对中兴通讯实施出口管制(随后在2018年中期对华为实施管制)以来,美国对中国半导体出口实施了越来越严格的禁令。这些制裁不仅禁止向中国销售先进的半导体终端产品,还禁止销售半导体制造设备,以防止中国能够获取和制造最新的半导体,从而在获取最新人工智能技术方面落后于美国。这八年来日益严格的制裁不仅迫使中国企业在整个半导体价值链上提高自给自足能力(这将是任何国家在半导体价值链上的首次尝试),还使其相对于美国同行更高效地利用有限的计算能力,从而取得超乎寻常的成果——正如深度求索的最新成就所展示的那样。虽然最初的深度求索模型是使用美国制造的英伟达H800训练的,但后续模型很可能会使用国产替代品,如华为的“昇腾910C”。尽管昇腾系列无法使用最新的尖端制造工艺(台积电2纳米),但它是一个足够好的平台,可以大规模运行深度求索R1模型。事实上,DIY爱好者已经展示了基本的开源深度求索软件可以在低端计算机(如树莓派)上运行(尽管没有完整的6710亿参数模型),功耗仅相当于普通智能手机。
2、美国科技巨头的估值必须大幅下调。就在去年,人们还认为任何想要构建大语言模型的公司都需要数亿美元的复杂硬件(只有少数公司如英伟达能够提供)以及数千万GPU小时。这意味着只有世界上最富有的科技公司——谷歌、Meta、微软等——才能负担得起构建、维护和提供大语言模型服务。因此,与大语言模型服务相关的利润将集中在少数公司手中,这些公司将拥有数万亿美元的估值(例如英伟达)。深度求索R1的发布打破了这一假设。它表明,一家初创公司只需不到1000万美元,就可以使用落后于尖端技术的旧硬件构建和训练模型。因此,小型公司可以以极低的财务门槛提供利润丰厚的服务。因此,美国科技寡头预测的所有利润(以及整体公司估值)现在都必须大幅下调,这可能会对美国金融市场产生危险的后果。
3、全球南方现在可以享受生成式人工智能的成果。深度求索最具变革性的影响并非直接与中国或美国相关,而是与世界其他地区(尤其是全球南方)有关。现在,世界上每个人都可以访问一个性能卓越、硬件要求相对较低的开源大语言模型,曾经将全球南方排除在人工智能游戏之外的财务和硬件门槛几乎已被消除。此外,由于地缘政治差异,世界上没有任何国家能够阻止其他国家(无论大小)获取先进的人工智能技术。现在,人工智能应用的新瓶颈是教育和想象力。即便如此,教育也越来越不再是一个障碍,因为深度求索用户已经展示了无需手动编写一行代码即可开发软件代码(包括人工智能代码)的能力。深度求索的免费开源大语言模型将释放全球南方超过60亿人的想象力和创新能力。
深度求索的成就无疑为中国在中美技术竞赛中提供了巨大的推动力。它的好处远远超出了仅仅减轻美国半导体出口禁令的影响,其更大的潜在价值来自另外两个来源:
4、扩大的半导体出口机会。深度求索使得在相对廉价但性能受限的硬件平台上运行可扩展、高性能的大语言模型成为可能。因此,全球南方市场中针对特定用例的小型企业和政府人工智能基础设施的可用市场大大扩展。作为全球领先的传统半导体制造商,中国处于理想的位置,可以向以前无法负担部署或使用高性能计算基础设施进行人工智能应用的发展中国家销售相对低端的人工智能芯片和后端基础设施——或其基于云的服务。
5、在人工智能开发者生态系统中扩大影响力。随着深度求索成为来自发达国家和发展中国家的应用程序开发者、研究人员和爱好者的首选大语言模型,其快速采用将带来更快的改进、更多可用的服务、加速的创新以及更广泛的社区支持,从而使深度求索在未来成为更多人的更具吸引力的选择。它大部分是开源的,这使得任何政府几乎无法限制或禁止上述改进的使用和传播,从而使其对地缘政治动荡更具抵抗力。
尽管深度求索为中国带来了诸多好处,但也存在一些不可控的风险可能因此被触发。作者首先想到的是,深度求索可能会促使美国放松半导体出口管制,因为美国可能会意识到此类措施的相对无效性。这种措施可能会产生不利影响,诱使中国企业重新依赖性能更高的美国技术,从而将收入和研发资金从中国本土的信息通信技术(ICT)价值链初创企业转移出去。与普遍看法相反,中国技术进步的可持续性在面对“友好”的美国时远比面对“敌对”的美国时更为脆弱。另一个可能的、或许是不可避免的副作用是,深度求索的成就与其他最近的“斯普特尼克时刻”(如“美国小红书大迁移”、两架第六代战斗机平台的试飞,或EAST持续核聚变反应突破1000秒)一起,可能会激励美国公众和精英们做出更加协调、全社会的努力,以保持对中国的技术领先地位。不幸的是,对于中国来说,目前没有实际可行的手段来缓解这两种风险。
总之,深度求索R1的发布标志着人工智能及其地缘政治影响演变的一个关键时刻。通过以竞争对手所需成本和时间的一小部分实现最先进的性能,深度求索不仅展示了中国日益增长的技术实力,还重塑了全球人工智能格局。美国半导体制裁未能扼杀中国创新、美国科技巨头潜在的价值重估,以及人工智能在全球南方的民主化,仅仅是这一突破带来的变革的开始。随着深度求索的开源模型在全球范围内普及,它将赋能全球数十亿人,加速全球创新,并挑战现有的技术和经济秩序。在这个新时代,赢家将是那些能够利用人工智能的力量来应对人类最大挑战的人——无论他们身处何地或经济起点如何。
来源:科技袁人袁岚峰