和OpenAI「三次撞车」,了不起的中国科学家

B站影视 2025-01-02 22:54 3

摘要:风起于青萍之末,浪成于微澜之间。今天的AI浪潮,其重要性已不言而喻,但在拐点到来之前,在多模态模型的训练仍是“无人区”时,他已经认识到这条通往AGI的道路的价值。卢志武教授,因为与OpenAI的三次撞车为大众所知,一次是多模态的模型,一次是多模态产品“元乘象”

风起于青萍之末,浪成于微澜之间。今天的AI浪潮,其重要性已不言而喻,但在拐点到来之前,在多模态模型的训练仍是“无人区”时,他已经认识到这条通往AGI的道路的价值。卢志武教授,因为与OpenAI的三次撞车为大众所知,一次是多模态的模型,一次是多模态产品“元乘象”,一次是Sora——视频生成的原理设计。所谓“撞车”,只是谦辞,卢教授和他的团队,用实力和作品证明了,到了AI时代,中国的科学家还是不弱于人。

人工智能,容易唬人。业内的一众人等,乐于为自己打造故事,或者说一些惊世之论,“重写一切代码”已经只是起步水准,“超强AI威胁人类”早就屡听不鲜。

卢志武没有这样的故事,也不会讲这样的话,甚至看上去,他是一个讷言的人。

收起锋芒,在人群中,他只是行色匆匆的普通人。与他交谈时,他的语言也很朴素,音量不大。不同的是他的眼神,沉静,清醒,似乎不怎么眨眼,能让人感受到它的穿透力。

不像外表那样的憨厚,卢志武是“有刺”的,尤其是提到团队成果与OpenAI的Sora“撞车”的时候。

2024年2月,美国最强的人工智能公司OpenAI,发布它新一代视频生成模型Sora。就像它的上一个产品ChatGPT那样,Sora对视频生成领域作出颠覆性改变,抛弃业界传统的U-Net架构,改用扩展性更好的Diffusion Transformer(缩写为DiT)。

就在世人惊呼Sora生成的视频效果之好、DiT技术的前途无限时,业内赫然发现,在Sora发布的10个月前,在中国人民大学高瓴人工智能学院,卢志武教授的团队早就公开发布了“几乎一模一样”视频生成技术的研究成果。

科学史上,一项成果的首发者身份归谁所有,是为数不多能让“巨人们”争得面红耳赤的问题。卢志武的团队领先10个月,没什么“口水仗”可打。

不过,提到这个“撞车”事件,卢志武并不得意,也没有笑容。他平淡的语气反而变得嘲弄起来。“技术上我们是第一个提出的,但把产品做出来,我们为什么不能是第一个呢?”

“一口气”与“一根刺”

时势造英雄。卢志武得“时”,也得“势”。

2019年,中国人民大学的校友、高瓴资本创始人张磊捐资,网罗了“一大批很牛的人”,建设专门做AI研究的学院。从此,他们盯住了业内的一切风吹草动。

更关键的是2020年,那是“大模型”刚刚被命名的一年。当年10月,北京智源人工智能研究院向时任北京市市长陈吉宁报告了“百人大模型计划”,预备“炼大模型”,北京市决定大力支持。这一项目,就是后来被称为中国第一个系列大模型的“悟道大模型”。

今天来看,悟道大模型是中国AI发展的转折点,它也培养了中国第一批大模型人才。

炼大模型需要钱,“(北京市)一下子批了几十亿做大模型。所以,中国的大模型没有掉队得很厉害,都要感谢陈市长”。卢志武如此评价。

悟道项目中,最重要的高校力量是“清华队”和“人大队”。就这样,卢志武随“人大队”加入了这个元老级的大模型项目。

而那个时候,美国是AI绝对的主阵地,国内的种种动向,也不过是闻风而起。

结合AI在美国的发展路线,会看得更清楚:2018年,谷歌发表著名的BERT论文,真正地将“预训练”的潜能发挥出来,AI开始显现出“一模多用”的可能;2020年,OpenAI的GPT-3模型问世,强大的性能震惊业内,其1750亿的参数量,远远超过当时主流模型1亿到10亿的参数量,研究人员第一次感受到“暴力美学”。

从那时算,再过2年,由OpenAI领衔的新一代AI就将震撼世人。从未见过的玩法和产品,如生命演化中的寒武纪时期一般,有如神迹,至今层出不穷。

但作为AI学者,卢志武的眼中,“硅基生物的寒武纪”有迹可循,其演化也有逻辑存在。在2020年,虽然这一切还看不清楚,但他直觉到,大模型是真正的未来。

“肯定有理性的分析(来判断),但是首先,这是一种直觉,你能立刻决定这个(大模型)能做。”卢志武说。

那时他判断,在此之前的上一代AI虽然很火,但已经显现出疲态来。旧版“AI四小龙”已经走到苟延残喘之时,有一些任务以及场景始终做不好,“说明那一代AI的技术有缺陷”。卢志武的话语直白简单。

悟道大模型项目是一个他珍视的机会。“我不知道别人是怎么想的,其实在我们自己心里,大家心里都有一口气。”卢志武解释,“我们”,也想做出世界范围内的重要工作,说俗一点,我们也想青史留名。

他的语气依然平实,又补充道:“你看历史上的霍去病。你去当武将,肯定都想做霍去病这样的人。”

没人走过的路

卢志武是幸运的。谷歌的Bert与OpenAI的GPT-3,都是公开发表之作,或许令当时AI圈的人都有“直觉”。但在参与悟道大模型的项目后,卢志武有机会亲自验证直觉。

但是探索也从来是艰难的。正如今天的OpenAI被嘲笑为“CloseAI”,原因就在于,GPT-3之后,它不再公布任何旗下研究的技术文档与细节。

大家开始了摸黑前进。

悟道大模型有4个项目,对应4个不同的大模型。“人大队”由高瓴人工智能学院院长文继荣带队,负责其中的“多模态大模型”研究任务,卢志武是团队中的模型组的负责人。对应的大模型,后来被命名为“文澜”。

“多模态”的概念不难理解。无论是Bert还是GPT-3,以至于最早的ChatGPT,它们属于语言大模型,只能通过对语言的认知和理解能力完成任务,而“多模态大模型”既能理解文字,也能理解视觉(图片、视频等)。

上一代AI技术中的计算机视觉(CV),与多模态大模型有着继承关系。不过,卢志武认为旧的范式在落地时有天然的缺陷,“它的通用性、泛化能力不强,这就是上一代AI公司盈利难的原因”。

时钟拨回2020年,那时,没几个人相信一个AI模型能够具有泛化能力。

卢志武团队很快决定增加模型的参数量。“这个方向,我也不是100%确认,但如果有50%的把握,我就敢投入”,这是他一直以来的研究态度。

过程中,心中的把握逐渐切入80%,这让卢志武和团队都兴奋不已。它是全新的创举——2023年以前,多模态模型一直是“无人区”。而早在2020年,卢志武就想用图文数据来训练一个具有图文能力的大模型,这是从未有人做过、甚至很少有人想到的。

2021年,卢志武曾对媒体说:“完全是在一片黑暗之中摸索的。”

卢志武参加南风窗社会价值年度盛/南风窗记者 施泽科 摄

关键在于原理设计。旧的计算机视觉时代,研究的都是专用小模型,相关经验不可参考。而在大模型研究的早期,包括领先者谷歌,都采取主流的“图文对”训练视觉模型。意思是说,训练数据只能由图文对组成,图文对是指一张图片和一段对该图片解释说明的文字所组成的“对子”。通过将大量“对子”输入机器,来训练机器内部的神经网络,最终,期待机器能理解图片和文字。

因此,当卢志武决定炼多模态大模型时,紧随而来的问题就是,如何获取巨量的、新的训练数据?

他们只好从网络上爬图,并且默认“一个图片附近位置的文字, 大概率是与它有关的,但是关系没有(图文对)那么强”,以此获取了训练数据。

新的问题又来了,弱联系的“图文对”,显然不能按主流架构来训练,会把机器越训越傻。卢志武设计了“双塔结构”来使用新的训练数据。他们不再像主流做法那样,对“图文对”进行整体编码,而是分别将图片和文字都进行编码,再作匹配等进一步的训练。

这与机器学习中“自监督”或“无监督”的概念相似,但不完全是一回事。何况,“当时自监督、无监督,都是很新鲜的概念,还没什么人提”,卢志武说。

它完全是新的训练方法。

2021年3月,首个中文通用多模态预训练大模型文澜问世。在此两个月前,OpenAI的第一个多模态大模型CLIP出炉。“你看CLIP,它跟我们的架构是一模一样的,只是一些细节上有差异。”卢志武说。

最难突破的

文澜与CLIP,是卢志武团队与OpenAI的第一次“撞车”,类似的事情,又发生过两次。

一次是多模态的应用产品,卢志武团队、AI创企智子引擎,在2023年3月8日推出了全球第一个多模态对话应用“元乘象”。就在6天后,3月14日,OpenAI发布GPT-4,宣布它是一个多模态模型及应用。

另一次就是著名“撞车”事件,卢志武团队在2023年5月公开发布的VDT(Video Diffusion Transformer)技术,与2024年2月Sora的底层架构DiT(Diffusion Transformer)撞车。卢志武把话又说了一遍,“几乎一模一样”。他补充说:“我甚至怀疑它(OpenAI)参考了我们的论文。”

“撞车”的描述来自媒体,谈及对这个词的看法,卢志武沉默了会儿,说道:“应该说是几乎同时,或者(除了文澜与CLIP),我们比它还稍微领先一些。”

不过,卢志武自己不能够很好地解释,为什么他能够接二连三地做出全新的学术成果。

他的回答,颇有炼大模型的一种“暴力美学”范儿。他说:要在世界范围内领先,当然是挺难的一个事情,有各种机缘巧合,跟人的认知有关,跟团队的水平有关,跟当时所处的环境有关,这些得凑在一起。

成败只是从事儿来看。卢志武也强调,做学术,做创新,“你认为(找到了)是这条路,但是没成之前,你就是在黑暗中”。

即便逻辑理顺了,要得到最终好的结果,中间其实有九九八十一难。

VDT简单物理规律模拟/图源:量子位

文澜时期,他们的工作没有任何经验借鉴,“代码都是一行一行重新敲的”。当时,团队的人每天一睁眼,就要面临全方位的问题,可能数据出问题,可能编程上出问题,可能算法上出问题,系统调用也会出问题……全靠团队的人自己应付。

身处高校,卢志武和他的团队,不会没有论文考核的压力。他记得训文澜时,一位特别年轻的女学生,入组三个月就弄出了高血压。另有一位14岁上大学的“天才少年”,是训练的主力,压力之下,头发都白了,“当然(文澜项目)结束之后,头发黑回来了,高血压也消失了”。

做创新,最难的当然不是身体疲劳,是“没有人告诉你该怎么做”。卢志武说:“我觉得最难的是思想上的难,实践的时候肯定会有难度,但是那个难度是可克服的。”

思想上的难,第一难可能是,敢于不同。

无论是训练文澜,还是与Sora撞车的VDT,都与众不同。卢志武说:“我是喜欢反着来的。”

于是,2022年,做多模态对话的卢志武转入AI视频生成的研究,技术上是很自然的。另一方面,他回忆,“当时听到硅谷的消息,据传2023年应该是AI视频技术的一年”。

VDT与现有模型对比/图源:量子位

与文澜时期类似,他不想走主流的路。当时,视频AI创企一片火热,如Pika、Runway等等,它们都用了传统的技术架构U-Net。卢志武解释说:“我一直想做有影响力的工作,不想跟着别人屁股后面走。你要说初心,要说真实的原因,就是这么简单。”

卢志武并不觉得自己很特殊。他说,就像在Sora之前,要使用DiT架构做视频生成,这件事不可能只有他想过,“肯定也有人想过做过但是没成。只是我的执行力强而已”。

活下去

2024年初春时节,就在Sora的“宣传片”掀起全网的浪潮时,中关村的人大系初创公司智子引擎也迎来戏剧性的一幕:从前这里门可罗雀,此后拜访的人络绎不绝。

在卢志武眼中,这一幕却有悲剧的意味。

此时,他悄然露出锋芒,“就是这样,我们老是干这种事”,他讥诮道:“中间近一年的时间差,没人愿意支持我们。大部分投资人不相信我们能做出来,可能也不相信中国人能做出来。假如我是一个美国人,他们马上就信了。”

卢志武看得清楚,从悟道到具体的文澜,再到视频生成技术,与OpenAI“几乎同时”,但是影响力完全不是一个量级。

与Sora“撞车”前,他也找过很多投资人,“他们听得挺兴奋的,但都是不敢出手”。即使撞车后,来访的投资背景的人多了,卢志武也觉得“没有太大意义,他们找我不是要投,只是想知道Sora的技术细节到底是什么样的”。何况,Sora已经做出第一个产品来。

“(心里)肯定是不平。”卢志武说,但这没有办法,当前学术圈或者科技创新的圈子里,不公平的事有很多,这也不是头一起了。

投资环境的不友好,叠加竞争对手的疯狂“内卷”,令AI行业迅速进入淘汰期,活下去是第一诉求。

“现在的六小虎,明年可能要死一半。”这是卢志武的判断。当然,他也无法逃离激烈的内卷,好在智子引擎“船小好调头”,员工约50人,能够控制住成本。

卢志武

卢志武介绍,现在团队的主力产品和服务,还是以多模态大模型为核心。客户粗略分为大客户和小客户两类,大客户如地方政府、央国企等。

小客户方面,卢志武着重介绍了“影楼”的例子。许多爱美的女性会到影楼拍写真,影楼提供摄像以及搭建场景、搭配衣装的服务。“可能拍摄100张照片,最后选出20张左右,做成集子”,其中大部分作品被浪费了。团队想到的办法是,经客户同意,将有瑕疵的废片制作成AI视频,自由度高,风格多样。结果证明,许多用户愿意为此掏钱。

另一边,影楼本身需要在各大论坛处引流,智子引擎还为其提供AI生成宣传物料的服务,人力成本下降了,制作的物料却成倍增长,营销对象更加多样、精细。

想用AI挣钱,必须要真正深入场景。卢志武介绍说,其实图片生成、视频生成的应用很多,智子引擎团队用了大半年的时间,吃透场景,目前已经合作了数十家影楼。而影楼及其客户,称得上是对图片质量要求最苛刻的人群,这反过来训练了团队和模型的基本功。

或许是因为见过上一代AI创企的窘迫,卢志武不愿赚自降身价的钱。比如,只是卖通用大模型,会因为开源模型的井喷导致模型逐渐廉价,走不通。一味强调定制化,针对每个场景都深度定制,成本太高,单纯是个力气活,也走不通。

训练AI时,算法、架构的迭代演化,有时不只是为了实现,还为了更优雅地实现。做AI的生意,类似于此,不是为了眼前而涸泽而渔,内卷致死。

活下去,蛰伏,或许就能等到竞争环境的改善,等到理想主义的资本入场,等到高校与企业“产学研”架构更进一步的释放。这些同样需要思想上的突破,很难。

来源:真相揭秘者一点号

相关推荐