摘要:9月11日,阿里云创始人、之江实验室主任王坚在2025Inclusion滩大会开幕式上指出,当前正经历从“代码开源”到“资源开源”的革命性转变,2025年,开源成为AI竞争的关键变量。
在AI快速发展的当下,开放几乎成为行业玩家们避不开的话题。
9月11日,阿里云创始人、之江实验室主任王坚在2025Inclusion滩大会开幕式上指出,当前正经历从“代码开源”到“资源开源”的革命性转变,2025年,开源成为AI竞争的关键变量。
今年初,通义千问、DeepSeek等模型的开源引发行业震动,连OpenAI创始人山姆奥特曼都坦言“OpenAI站在了历史的错误一边”。
在王坚看来,这一转折背后是开源从“代码开放”向“资源开放”的变迁。他进一步表示,从理论基础看,AI的发展始终与“开放”理念交织。
图灵奖得主GeoffreyHinton指出,80年代设想的东西如今已成现实。2012年,人脸识别时代的开启、2017年Transformer与tokenization技术的突破,让数据、模型与算力的规模呈指数级增长,资源的重要性随之凸显。
王坚认为,当前AI时代仅开放源代码已无法满足行业需求,而开源本质是“资源开源”。模型权重的开放,不仅是数据资源的共享,更是计算资源的释放,即个体无需重复投入大量算力训练已有模型,但要突破创新仍需更多资源投入。
目前,这一理念更延伸至太空探索。今年5月,12颗三体计算星座卫星成功发射,首次将算力和AI送上太空,并实现卫星间的互通互联,可直接在太空完成数据处理。未来,该星座计划向全球开放每颗卫星;更长远的目标是将卫星送至太阳轨道的拉格朗日L5点。
在王坚看来,从互联网时代的代码开源,到AI时代的资源开源,开放始终是技术突破的关键变量。只有把AI和算力送入太空,人类才有可能真正地走出地球。“人类去火星的路上是不能没有计算和AI的陪伴,这就是接下来10年甚至20年最激动人心的地方。”
以下为王坚演讲全文:
非常高兴有这么一次机会跟大家分享一下这个话题,在今天人工智能的背景下有一个绕不开的话题——“开放”。
今天我想把几个可能大家熟悉,但是又比较困惑的事情,从我的角度说一下。“开源”这个词其实大家有不同的理解,我们今天正在经历一个从代码的开放、开源,到资源的开放、开源,一个非常不同的革命性变化。
其实最近一年发生了很多事情,如果从人工智能角度(来看),2025年注定是非常不平凡的一年。
今年年初1月13日,美国公布了对人工智能的出口管制,可能大家比较熟悉的就是关于芯片、集成电路、半导体的出口管制,但事实上在同一个出口管制上是第一次那么明确地说出来了,说要对人工智能模型的权重进行管制。这个管制令有一个非常有意思的事情,也可以讲是一个漏洞,他只是明确地提出了对“闭源”权重的出口管制,而专门强调了“开源”的权重不在管制之列。
我想这边后面有一个非常重要的假设,在1月13日,其实也就是大半年以前。当时,世界上最好的基础模型都是在美国头部的那几家公司。当然也有一个很有意思的事情,在今年1月18日大家都熟悉的Jeff Hinton也在几个星期以前到过上海,大家都知道他是一个极其反对让人工智能模型开源出来的人,当然他有他自己非常重要的理由。
可是就是在1月31日,随着千问Qwen的开源,DeepSeek的开源,在1月30日Sam Altman说过一句让所有人都很震撼的话:在开源这个时刻,OpenAI站在了历史的错误一边。我想这句话背后的含义我就不多说了,他不是一个策略性的错误,这是一个历史的选择。
我觉得2025年很神奇的一件事情就是一个说不清还道不明的事情,甚至还沿用了在软件时代的概念,使得变成了今天AI竞争的一个很关键的变量,今天没有人可以绕开这个变量来说下面我要怎么做AI。对于一个产业和一个技术(来说),这个变量不是新的。
其实在1998年,互联网要起来的时候,大家知道互联网要起来的一个最重要标志就是浏览器。大家知道Netscape是当时最好、最开放,也是改变了这个格局的浏览器,在互联网时代,Netscape的开源是那个时代的“分水岭”。关于这个开放的话题不只是今天重要的关键,其实在互联网时代就是那个关键的变量。
可能很少人知道,其实是在1998年,“开源”(Open Source)这个词,大家知道Open Source指的就是Open Source Code,指开放源代码。“开源”这个词在1998年4月份,才被一批极客固化下来,因为当时有很多不同的叫法,比如自由软件、免费软件,但是Open Source这个词是在1998年,其实离我们没有多远,但是它开创了后来互联网的那个时代。
谈到图灵奖,其实很有意思,2019年Jeff Hinton和那几位开创者得了图灵奖的时候,其实很多事情也是刚刚开始,他们2018年得了图灵奖,后来Hinton做过一个演讲。在这个演讲上,他说了两个很重要的观点和今天的开源是有关系的,是2018、2019年给的talk。里面讲到了人工智能两个最重要的方法,即所谓逻辑驱动的,或者被逻辑这样的方法来启发的,以及因为大脑或者神经元这样的生物特性来启发的这两种不同逻辑。
因为有第二个方法,所谓的用神经元/生物学方法来驱动的方法论演进,使得我们有了“权重”概念。
大家都知道,8年以后,Hinton上个月在“上海人工智能大会”上重复了他8年前讲的这两句话。但这是有原因的,事实上以生物学作为思想的驱动,不是从人工智能开始的。图灵在40年代末第一次说了最基本的(观点),今天所有神经元基础的东西都有一个很好听的名字叫“Connectivity”。(如图所示)我画了红线的地方是非常有意思的事情,他觉得受神经元的启发,跟真正的神经元没有任何关系,所以打的引号。但里面很重要的事情是这样神经元的数量要足够多,多到一定程度的时候就会产生今天的“智能”,这是图灵在1948年说的。所以Jeff Hinton讲的第二个路径就是这个路径。
很有意思的一件是很长时间有人在探索这件事情,这篇文章发表在1986年的《自然》杂志上,这篇文章非常明确地讲到了“权重”这件事情在模型中的重要性。这篇文章的第三作者就是得了“图灵奖”和“诺贝尔奖”的Jeff Hinton,但前面两个作者是当时世界上最著名的心理学家。
事实上跟Neural有关系的探讨,在80年代中期是以心理学家为核心的小组在讨论的,那时候以计算机科学家为核心讨论的人工智能方向就是以逻辑作为驱动的方法。
如果你在那时候真的要做这件事情,有一本教科书,是1986年以后我自己接触这个领域时的教科书,到今天大家应该都不太熟悉,叫作《Parallel Distributed Processing》。上次在上海碰见Jeff Hinton我跟他说起这套书的时候他还是蛮激动的,他说那时候设想的东西今天都变成现实了。这篇文章还是 Hinton作为第三作者跟几位心理学家一起完成的。
讲到这件事情也要感谢互联网,其实这两本书的背后又专门出了一本书,这本书是本实验手册,是第一次真正把所有关于这个理论的代码都开放出来了。到今天为止,你还可以到我这页PPT上的链接去下载代码,尽管代码是运行在docs上的,是运行在最原始操作系统上的,而代码开放的时候还没有开源概念,这是1986年的(链接),开源概念是1998年才真正被固化下来。
事实上,“开放资源”的概念不是因为有开源这个说法而带来的,事实上在任何科学探索的过程中有很多先驱已经做了这件事情。当然,我自己很高兴的是最早提出以生物学神经元为基础的方法论先行者们为我们做了非常好的探索。
这才有了后面2012年第一次Hinton跟他的两位学生把数据、模型、算力GPU搞在一起,这带来了大家都熟悉的人脸识别的时代。但在那时候“资源”概念还是没有那么深入人心,因为数据量不足够大,模型不足够复杂,算力也没有想象那么大,这篇文章发表的时候只用了2块普通打游戏的GPU卡,远不是今天想象的规模。
但这一切在2017年发生了很大的变化,在那时候这几位作者提出了“Transformer”提出了“Tokenization”,就是今天讲的Token,大家都知道Tokenization是非常关键的技术,使得让数据真正资源化,这是里程碑的事情。
同样会发现因为有这两个东西的出现,2012年时的数据、模型、算力乘上了一个更大的变量,叫“规模”,也就是说所有东西的规模都是被千倍万倍增加而使得今天我们看到的人工智能发生了不只是原理上的进步,在事实上发生了一次天翻地覆的变化。
当规模到这个程度的时候,资源就变成了非常重要的事情。大家试想一下,到今天模型权重的开放本质上是数据资源和计算资源的开放,有了模型开放以后,你再也不需要自己花掉那么多计算资源重新做有人替你做掉的事情。
我想说,开放以后并不是大规模计算不重要了,而是作为个体不需要再重新发挥这么多资源,因为有人帮你付掉了这笔钱。倒过来讲,要做一个更好的模型,可能需要有其他人以更多的资源投入来完成这件事情。
到了今天这个时候,只是开放源代码,其实不解决过去在软件时代解决的问题,而开放资源(特别是数据和计算资源)是让我们推动行业往前走的不能缺失的环节,这就是今天人工智能时代说“开源”非常重要的特点,我更愿意把开源叫“Open Resource”,大家知道Open Source和Open Resource翻译成中文,都可以有同样的翻译,叫“开源”。当然,开源不只是今天的模型。
太空一直是我们最大的资源,在50年以前是这样,今天绝对不是只把人工智能用在手机上、电脑上,其实人工智能不应该缺失太空。但这有个障碍,就是算力,当你用三个组合的时候。
这时候让我们有了机会,就像当年我们重新定义手机作为你的电脑,其实今天有了通讯卫星、导航卫星、遥感卫星以后,因为人工智能的出现就会有第四种卫星,我把它叫“计算卫星”。同样因为卫星的存在,使得我们有机会把AI送到那里去。
我自己还是蛮幸运的,因为在之江实验室做这件事情,今年5月14日,第一次把12颗卫星同时上了天,而且在这12颗卫星组成的星座上,第一次把地面真正意义上的8B AI模型放到太空去了。不是用了简单的深度学习算法做了处理的小程序放到卫星上,是一个跟地面上一模一样的完完整整的AI模型送到了太空上。其实当第一次进去的时候还是非常激动的,所以让我们觉得第一次可以感受到AI是不能缺失太空的。
这12颗卫星到了太空以后会保证只要卫星到达的地方,就可以在太空的任何地方完成对所有数据的处理。大家知道在这之前,所有的卫星在天上是没有任何关系的,所有在天上的卫星只跟地面发生关系,天上的这颗卫星和那颗卫星之间没有关系,这也是第一次完整地做完了在太空卫星的互通互联,给人工智能在太空带来了一次巨大的机会。
很有意思的这件事情为什么给它叫了个名字“三体计算星座”?这边有很多朋友知道“三体”这个词是从小说上读来的。事实上,“三体”这个词是一个彻头彻尾的科学概念,最早是牛顿提出来的。他讲了一个非常简单的道理,在太空中如果只有两个物体,假定月亮和地球是可以有解析解的。也就是说,有一个准确的数学解决方式来说明这两个物体之间的关系。但只要还有第三个物体存在,比如说太阳,这三个物体之间的关系就没有解析解了,就没有一个确定的解了。所以你要描述它们之间的关系,一定要假定另外一个物体是固定不动的,后来被牛顿称为“三体问题”。这背后告诉一个非常简单的道理,一个人、两个人做事情是很容易做的,只要三个人搞在一起就不好做了。中国有一句古话叫“三个和尚没有水喝”。但“三体计算星座”就是希望我们有N多主体还是可以完成一件事情的,这是开放资源的情况下必须要做到的事情。“三体计算星座”就是希望有无数的主体来共同完成这个星座,来共同分享这个太空。
香港《南华早报》在听过我的一个演讲之后,后来写了一篇文章,大家可以去看一下。本质上就是“只有这样,我们才能够真正分享太空,把人工智能送入太空。”这里面我们会做一个非常有意思的计划,真的把每一颗卫星开放给全世界的任何一个人。这里面可以解决很多问题,可持续发展的问题就不多说了,当然也可以为我们想象要往深空去探索,这是一些科学家在设想的几年以后,不是十年以后,就在几年以后,把卫星送到太阳轨道。也就是说,不只是地球的卫星,而是太阳的卫星,这颗卫星会放在大家看到的L5.(Lagrange拉格朗日第五点),这个“·(点)”离地球1.5亿公里,离太阳1.5亿公里。在那个时候,数据几乎没有办法传回到地面再做处理,只有把AI和算力送入太空,人类才有可能真正地走出地球。
下面这个时代还是非常激动人心的。我经常讲,人类去火星的路上,是不能没有计算的陪伴和AI,这就是下面十年甚至二十年最激动人心的地方。
来源:新浪财经