摘要:1月20日,“反中”第一人特朗普正式二次入主白宫,就职美国第47任总统。没有任何意外的话,这一天应该可以说是美国“抗中派”们的高光时刻,头版头条也应该都是关于特朗普将如何刀俎中国的叙事,可意外偏偏发生了。
1月20日,“反中”第一人特朗普正式二次入主白宫,就职美国第47任总统。没有任何意外的话,这一天应该可以说是美国“抗中派”们的高光时刻,头版头条也应该都是关于特朗普将如何刀俎中国的叙事,可意外偏偏发生了。
就在特朗普登台同日,中国发布人工智能(AI)大型语言模型DeepSeek-R1,这一模型立刻引发了美国广泛关注,一时间,“中国的AI是超过美国了吗?”成了两国人民最为关心的问题。
有人说,中美AI竞赛的“斯普特尼克(Sputnik)时刻”到来了,即苏联于1957年首度发射的人造卫星、被视为掀起太空竞赛的历史一刻。
看前小科普
人工智能(英语:artificial intelligence,缩写为AI):人工智能可以定义为模仿人类与人类思维相关的认知功能的机器或计算机,如学习和解决问题。人工智能是计算机科学的一个分支,它感知其环境并采取行动,最大限度地提高其成功机会。此外,人工智能能够从过去的经验中学习,做出合理的决策,并快速回应。
大语言模型:是一种利用机器学习技术来理解和生成人类语言的人工智能模型。能够执行文本分析、情绪分析、语言翻译和语音识别等任务。
算力、算法与数据与AI的关系:数据是AI学习的“营养”,算力是执行算法、处理数据的“肌肉”,而算法则是指导机器学习的“大脑”。
DeepSeek创始人:中国AI不可能永远是跟随者
2023年,美国科技公司OpenAI发布重磅语言模型GPT-4,自此开启人类的AI元年,这一年,美国在AI领域显现出的开创性和领先性令中国望其项背,也令中国焦虑不已,因为AI正代表着人类的下一场“工业革命”,输了的后果不可想象。
但或许正是因为看到两国间巨大的技术差距,除了腾讯、百度等有雄厚资金的巨头公司选择动用上亿资金进行底层通用大模型的研究,其他中国公司大多选择利用美国开发和开放的现成模型架构进行应用创造,快速营造利润,收获经济上的回报。
美国发明什么,中国便拿来进行加工,最终制造为产品获利,这个剧本听起来非常熟悉,对于中国的聪明才智者们来说,这条致富之路也更为轻松。但一位来自广东湛江、毕业于浙江大学的年轻人选择对这种成功路径说了“不”。
他认为“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
因此,“我们认为,中国人工智能不可能永远是跟随者。我们经常说中国人工智能和美国人工智能有一年、两年的差距,但真正的差距是原创和模仿。如果这个趋势不改变,中国永远是跟随者。有些探索是不可避免的。”
于是,在GPT-4发布同年,这位未满40的年轻人开始了他的探索。他迅速成立了一家名为DeepSeek(深度求索)的科技公司并开始招兵买马,对于应聘者,他的要求是不求有经验,但求有能力、热情和好奇心。因为他认为,“创新需要摆脱惯性,经验有时会成为包袱”。在这样的宗旨之下,这家公司迅速组建起了一支年轻且富有活力的百人团队,里面大多都是来自清华、北大和浙大等名校的应届生和刚毕业一两年的青年人。
一年多后,他交出了自己的答案,也就是上文提到的DeepSeek-R1。
这一模型之所以出圈,主要是因其低成本下的高性能,据DeepSeek自己透露的数据,该款模型用时53天、不到600万和2048张英伟达H800(较为落后)的GPU,但效果却不逊色于美国OpenAI用时半年、耗费1个亿和25000块A100 GPU所做的GPT-4,这样的对比实在是令人心惊,也难怪引发舆论哗然。
成本对比
中国的DeepSeek-R1
美国的GPT-4
用时
53天
半年
耗费金额
不到600万
耗费1个亿
所使用GPU数量
2048张英伟达H800的GPU
25000块A100 GPU
之所以能达到这样的效果,主要是因为DeepSeek在算法层面进行了创新,一直以来,算法、算力和数据被公认为是AI发展的三大支柱,而过去各大机构和公司都更多的沉浸于在算力这一方面进行“烧钱”式的屯芯片比赛,DeepSeek则另辟蹊径,通过算法来对大模型进行弯道超车。
美国智库兰德公司(Rand)研究员海姆(Lennart Heim)对此举了一个生动的例子,早期的ChatGPT就象是读过所有馆藏的图书馆管理员,当你问问题的时候,他会根据他看过的所有书籍来回答,这个过程耗时又耗能。但DeepSeek用了另一种方法,它的管理员没有读过所有的书,但接受了良好的训练,可以在被问问题时,找到正确的书来回答。
除此以外,DeepSeek还做了一件更牛的事,那就是开源,即任何人都可以自由地使用、修改、分发和商业化它的模型,这就相当于不光码了一手好牌,还明牌了。相比之下,美国的OpenAI还是闭源模式。
DeepSeek好像真的赢麻了,中国立刻陷入了举国般的狂欢,一批年轻的土生土长的中国应届生打败了科技第一国美国的顶级专家,这样神话般的叙事充斥了中国的互联网。
事实果真如此吗?
DeepSeek——站在巨人的肩膀看世界
在图灵奖得主、Meta副总裁兼首席人工智能科学家杨立昆看来,DeepSeek的成功,与其说是“中国超越美国”,倒不如说是开源模型正在超越专有模型。
从何讲起?
他表示,“DeepSeek的成功很大程度上得益于开源研究和开源社区(如Meta的PyTorch和Llama,他们是在其他人的工作基础上提出新想法并构建的。正是因为这些工作都是公开发布和开源的,所以每个人都能从中受益——这正是开源研究和开源精神的力量所在。”
仔细来看,DeepSeek确实在算法上进行了一些创新,提高了模型效率,但这也是在基于前人所打造的基础之上,而非做出了核心技术层面的突破和迭代,用比较形象的俗语来说,DeepSeek是站在了巨人的肩膀上看了世界,得益于开源。
而AI开源的鼻祖正是美国。去年7月,美国公司Meta开源了耗资上亿、使用1.6万块英伟达H100芯片进行训练的Llama3.1,展现出其对于开源的决心,该公司董事长扎克伯格在当日发文一篇《开源AI是前进之路》,他认为,对于世界而言,开源将确保全球更多的人能够从AI的发展中获得好处和机会,权力不会集中在少数几家公司手中,技术能够更均匀和安全地在社会中部署。
扎克伯格的愿景在中国得到了实现和绽放,DeepSeek,在美国铺好的道路上跑出了自己的加速度,如此背景下,说DeepSeek的出现意味着中国在AI领域的实力已经与美国相当,实在是值得商榷,毕竟铺路的是别人,作为追赶者,所耗费成本自然更低,更何况,DeepSeek用的还是来自美国的芯片呢?
除此以外,DeepSeek的创新性和低成本也颇受质疑。
美国OpenAI和白宫官员表示,DeepSeek可能通过不正当的方式利用了OpenAI的专有技术来开发其自有的AI产品 。半导体研究和咨询公司 SemiAnalysis 也在研究报告中说,DeepSeek 的主要投资方幻方量化早在2021年美国出口管制生效前,就囤积了一万块英伟达先进的A100 GPU。另外DeepSeek的论文中提到的600万美元成本仅指预训练过程中 GPU的花费,这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。
不过,不可否认的是DeepSeek确实打开了人们重新理解AI领域竞争的思维之门,即在开源的大背景之下,每个人、每个国家随时都有可能异军突起。
但这一切的基础还是离不开算力,没有算力,再好的算法也如空中楼阁,没有落地的空间,正如DeepSeek创始人梁文峰自己所说:“我们面临的挑战从来不是钱,而是高端芯片的禁运。”
去年年底以来,美国公布了一系列对中国AI算力供应能力全面围堵的政策,严格限制向中国出口尖端半导体。白宫在公告中表示,“我们必须确保人工智能这一关键技术不离岸,确保全世界的人工智能在美国的轨道上运行。”
不过据消息人士指出,DeepSeek绕开了美国英伟达的编程框架,为日后适配中国国产图形处理器做准备。DeepSeek拥有一些擅长写PTX语言的内部开发者,倘若DeepSeek未来有意改适配中国国产的GPU,在硬体适配方面将更得心应手。
不难看出,中美真正的较量现在才刚刚开始。
截至2024年一季度,全球AI企业近3万家
美国占比
34%
中国占比
15%
数据来源:中国信通院院长余晓晖发布的《全球数字经济白皮书(2024年)》
DeepSeek回答的中美AI发展优劣势对比
中国:
-优势:
- 数据规模大:庞大人口和广泛应用产生海量数据。
- 政府支持强:AI被列为国家战略,政策扶持力度大。
- 应用场景丰富:互联网和制造业发达,AI落地场景多。
- 人才储备增长快:AI领域人才数量迅速增加。
-劣势:
- 核心技术依赖:高端芯片和算法仍依赖国外。
- 创新能力不足:基础研究相对薄弱,原创性突破较少。
- 国际环境限制:面临技术封锁和地缘政治压力。
美国:
-优势:
- 技术领先:拥有全球顶尖的AI公司和研究机构。
- 创新能力强:基础研究深厚,原创性成果多。
- 人才吸引力大:汇聚全球顶尖AI人才。
- 资本支持充足:风险投资和资本市场活跃。
-劣势:
- 政策连续性不足:虽然特朗普政府放开了数据监管并启动了“星际之门”等计划,但美国政策随政府更迭可能出现变化,影响长期战略的稳定性。
-社会分歧与伦理争议:尽管政策放宽,AI的伦理问题(如算法偏见、隐私侵犯)仍引发公众担忧,可能限制技术应用的广泛推广。
-国际竞争加剧:中国等国家的快速崛起对美国在AI领域的主导地位构成挑战,可能削弱其全球影响力。
来源:香港经济导报社