摘要:1月20日,幻方量化旗下公司DeepSeek悄然发布了推理大模型DeepSeek-R1。起初,由于宣传不多,它并未引起太多关注。然而,仅仅几天后,DeepSeek在国内外都爆火,不仅下载量迅速登顶各大应用商店,还导致英伟达股价暴跌,进一步证实了DeepSeek
,抓住风口(iOS用户请用电脑端打开小程序)
本期要点:DeepSeek的真正价值是什么?
你好,我是王煜全,这里是王煜全要闻评论。
今年,或许出乎了所有人的意料,春节期间最火爆的话题竟然是一款国产大模型,由此引发的中美AI科技战讨论也异常热烈。
1月20日,幻方量化旗下公司DeepSeek悄然发布了推理大模型DeepSeek-R1。起初,由于宣传不多,它并未引起太多关注。然而,仅仅几天后,DeepSeek在国内外都爆火,不仅下载量迅速登顶各大应用商店,还导致英伟达股价暴跌,进一步证实了DeepSeek-R1的巨大影响。
相信不少朋友已经体验过了DeepSeek-R1的“深度思考”功能,应该会感受到,这次R1模型不再只是纸面数据高了,现实表现也确实比较出色。
但很快,DeepSeek的官网就频繁出现服务器繁忙、无法注册等情况。据称这源于美国黑客的攻击。而且,美国政府以及相关主流舆论也开始一边倒地对DeepSeek进行打压,甚至有议员提议要对下载DeepSeek的个人和机构进行重罚。
同时,OpenAI也很快做出了回应。他们不仅向公众推出了推理能力更强的o3模型,还发布了一款名为“Deep Research”的智能体产品,可以帮助用户进行深入、复杂的信息查询与分析,而且对Pro用户开放。也就是说,只要你愿意支付每月200美元(约合人民币1450元)的订阅费,就能体验到这款产品。
在这样科技战剑拔弩张的背景下,DeepSeek事件得到了公众极大的关注。虽然我们也在初二对此进行了简单评论,但仍有不少朋友在询问我的具体看法。那么,今天就再深聊聊。
首先,毋庸置疑的是,美国,尤其是他们的政府部门和主流媒体,对于DeepSeek的重视是真实存在的。
这不禁让人想起,1957年苏联成功发射了“斯普特尼克1号(Sputnik 1)”卫星后美国人的反应。
那颗仅重83.6公斤的小卫星,是全世界第一颗人造地球卫星,它震撼了整个西方世界,尤其是让自诩科技领先的美国感受到了前所未有的紧迫感。它不仅展示了苏联在火箭技术和太空探索方面的能力,还表明美国在国家安全方面也落后于苏联。
美国国内舆论一片哗然,觉得美国在美苏争霸中突然之间被苏联反超了。这种巨大的心理压力,直接催生了后来的登月计划。美国政府迅速将国防预算提升到了GDP的9.1%,同时成立了NASA(美国航空航天局)。在接下来的十几年里,NASA聚焦于阿波罗登月计划,最终在1969年实现了人类历史上的首次登月。
因此,当年这件事被称为”斯普特尼克时刻(Sputnik Moment)“,代表着美国的觉醒和决心赶超的开始。
斯普特尼克1号
这次也有几分相似之处。虽然美国一直在渲染“中国威胁论”,从2018年便开始对中国的科技企业进行打压,但“中国威胁论”的具体证据却并不充分,因为中国企业—比如芯片企业—更像在追赶,并不那么领先,所以更像是美国政府的神经过敏。
然而DeepSeek的横空出世,数据超越了美国引以为傲的顶尖AI公司的水平,这终于让美国人足够惊慌,觉得像是中国人又放了一颗“斯普特尼克1号”卫星。
但我们认为,这可能又是美国的一次过度解读。
一方面,早在9月份OpenAI发布o1模型的时候,我们就曾表示,o1的技术优势并非难以超越。思维链的思考过程以及在训练过程中使用强化学习算法,并不是什么独家秘籍,也不是像算力、数据集这样耗时耗力的事情,其他公司完全有可能在短期内学会并掌握这些技术。
但是,我们确实也没想到,率先追上o1模型步伐的,既不是Meta、也不是Anthropic,而是一个中国公司,而且它是如此默默无闻,甚至很多人都记不住它的名字。
另一方面,说句虽然公道、但大家可能不爱听的话,虽然DeepSeek-R1本身具有重要意义,但它并不是ChatGPT3.5那样划时代的战略级产品。
DeepSeek-R1的意义更多体现在战术层面,核心在于三个主要的技术改进:训练能耗的大幅降低、推理延迟的显著减少以及微调成本的巨幅下降。这是典型的优化过程,也是我们中国企业比较擅长的事情。
然而,这种优化存在刚性约束,也就是说,优化空间有限,而且难以实现连续提升。如果过于重视这种优化,可能会在技术竞赛中出现战略级的失误。
而从战略层面看,当前AI的发展还遵循着scaling law,也就是说,砸钱堆芯片堆数据,性能就能提上去。从长期看,已有模型的性能调优的提升空间是有限的,而增加资源投入来推出更强大的模型以提升性能则是没有上限的。
DeepSeek的优化是建立在近期Transformer架构一直难有突破的这个机会窗口期,利用混合专家系统(MoE)将参数利用率提升至了极限。可是,这也意味着,如果留给性能调优的机会窗口期很短暂,这种优化所带来的战术优势将难以维持。
打个比方,14世纪手持火器刚出现时,熟练的弓箭手仍是军队的抢手货,优化自身的射箭技术非常重要;17世纪,燧发枪出现了,弓箭手再怎么训练也难以与之抗衡,战术上的勤奋终究难以弥补战略上的失误。
弓箭手的窗口期长达3个世纪,但在科技日新月异的今天,留给DeepSeek的持续优化、降本增效带来的优势窗口期又是多久,值得大家仔细分析。
但最后,我们认为,美国AI业界确实也出现了很大的失误。他们太急着往前跑,都在想着怎么在性能上领先。但问题是性能领先了,应用能否跟上?
别忘了,市场最先接受的,是能满足应用需求且更廉价的技术,并不需要技术遥遥领先。
就像当年Intel和Windows结盟,就是在摩尔定律的加持下,Intel的算力提升大大超过了应用的需求,因此Intel只好求助于微软,让Windows把系统做得越来越复杂,以消耗更多算力,逼着用户升级硬件,从而延续了Intel的芯片生意。但这个模式明显是不可持续的。
现在虽然AI在终端智能和空间智能等方面还有巨大的提升空间,对算力仍然有很强的需求,但在OpenAI领先的生成式人工智能领域,现有算力已经足以支撑应用。我们在去年底的要闻评论里就提到过,OpenAI明显有战略问题,对应用开发的支持明显不足,这时候他们需要的是Wintel联盟,是优化结构、降低成本,而不是一味不惜成本地追求技术领先。
有趣的是,我们看到,虽然美国政府在想尽办法来封杀DeepSeek,众多美国科技巨头却纷纷接入DeepSeek的模型。你看,很明显各家科技巨头、尤其是云平台提供者确实看懂了DeepSeek的价值,希望引入DeepSeek,以获得对AI应用的更好支持。
如果延续这个趋势,生成式AI的应用—也就是我们说的AIGS人工智能生成服务—的大繁荣应该就快到来了,只不过这个繁荣是DeepSeek、而不是OpenAI带来的。
但仍然有个悬念,那就是美国政府除了对DeepSeek封杀之外还会做什么?当年的斯普特尼克时刻确实带来了美国政府的空前投入,导致了航天科技的大繁荣,这次的DeepSeek时刻又会带来什么呢?
这也是我们科技特训营在今年的研究重点:在这个机会层出不穷、但形势也瞬息万变的时代,在潮流将要到来时做出准确预测,帮大家把握住机会。
在今天晚上的特训营直播课上,我将为大家深入剖析AI带来的趋势、机会和未来可能的格局。如果你感兴趣,欢迎前来学习探讨,和我一起,先人一步,看清未来!
最后,我们的前哨AI硅谷行正在火热招募中,我们将一起到硅谷看高科技企业,跟前沿创业者沟通交流,一起发掘属于未来的机会,
以上就是今天的内容,我们明天见。
【科技特训营】看懂科技产业,离不开长期观察。线上书院模式,与王老师深度链接!为未来五年做好准备,先人一步,看清未来!
来源:王煜全