李飞飞再谈世界模型:AGI是营销术语,空间智能才是AI缺失的能力

B站影视 欧美电影 2025-11-17 17:57 1

摘要:李飞飞最近发布的长文《从语言到世界:空间智能是 AI 的下一个前沿》在硅谷引起巨大反响,甚至被许多人称为“空间智能宣言”。紧接着,她联合创办的 World Labs 又发布了全球首个大型世界模型产品 Marble。而就在几天后,她接受了 Lenny's Pod

李飞飞最近发布的长文《从语言到世界:空间智能是 AI 的下一个前沿》在硅谷引起巨大反响,甚至被许多人称为“空间智能宣言”。紧接着,她联合创办的 World Labs 又发布了全球首个大型世界模型产品 Marble。而就在几天后,她接受了 Lenny's Podcast 的播客访谈,围绕着她近期一系列的重要举措,详细阐述了她对 AI 未来的思考、世界模型的技术路径,以及为什么空间智能将成为人工智能的下一个十年。

图丨相关访谈(来源:Youtube)

在这场长达一个多小时的对话中,李飞飞回顾了 AI 从寒冬到复兴的历史转折,坦率地谈论了创业过程中的焦虑与压力,她还直言不讳地指出 AGI(通用人工智能,Artificial General Intelligence)“更像是营销术语而非科学术语”,强调当前 AI 最大的短板是缺乏空间智能——那种让人类能够在三维世界中导航、操控物体、预测物理现象的能力。她还解释了为什么仅靠数据和算力的“苦涩教训”无法让机器人真正成熟,以及为什么每个人在 AI 时代都不该被边缘化。

从 ImageNet 到世界模型

今天,几乎所有人都在谈论 AI,但很少有人记得,仅仅在九年前,将自己称为“AI 公司”在商业上几乎是自杀。李飞飞在访谈中回忆道:“2015 年中到 2016 年中,一些科技公司甚至避免使用 AI 这个词,因为他们不确定 AI 是否是个贬义词。”那时的 AI 还深陷“寒冬”,公众兴趣寥寥,研究资金有限。

而这场寒冬的解冻,要追溯到 2012 年的一个技术突破。那一年,杰弗里·辛顿(Geoffrey Hinton)教授带领的团队在 ImageNet 挑战赛中使用神经网络算法取得突破性成功,这被广泛认为是现代 AI 或深度学习的诞生时刻。而这场革命的基础,正是李飞飞从 2006 年开始构建的 ImageNet 数据集。

图丨ImageNet(来源:ImageNet)

2000 年,李飞飞在加州理工学院开始攻读博士学位,当时 AI 研究者已经意识到纯粹基于规则的编程无法赋予机器真正的认知能力。机器学习的概念已经开始兴起,它让计算机能够从数据中学习模式,而不是为每一种情况编写规则。

但李飞飞很快发现了一个被普遍忽视的瓶颈。“我们有各种各样的数学模型,包括神经网络、贝叶斯网络等等,但这些模型缺乏训练数据,”她在访谈中回忆道。这个洞察来自对人类学习方式的观察。人类学习依赖海量的经验积累,进化本身也是一个跨越漫长时间的大数据学习过程。而当时的 AI 模型就像营养不良的孩子,再精妙的算法也难以施展。

于是,这个观察促使她和学生们启动了一个在当时看来“完全疯狂”的项目:从互联网上精心收集 1,500 万张图片,创建包含 2.2 万个概念的分类体系。

这个大胆的赌注最终得到了回报。辛顿团队的那两块游戏显卡和 1,500 万张标注图片,成为现代 AI 的黄金配方雏形。

这个“黄金配方”一直延续至今。“如果你看 ChatGPT 背后的技术成分,它仍然使用这三大要素:互联网规模的数据(主要是文本)、比 2012 年复杂得多但仍是神经网络的架构,以及大量 GPU。”李飞飞指出。

然而,就在大语言模型席卷全球之际,李飞飞却将目光投向了另一个方向。2019 年,当 GPT-2 问世时(注:原访谈中李飞飞提及的是“GPT-2,came out in late 2020”,但 GPT-2 实际发布于 2019 年 2 月,GPT-3 发布于 2020 年 6 月,此处也可能是指 GPT-3),作为斯坦福人本人工智能研究院(Human-Centered AI Institute,HAI)的联合院长,她与自然语言处理领域的同事们展开了深入讨论。“我们都看到了未来,”她回忆道。但她也意识到,仅有语言是不够的。

空间智能:被忽视的认知基础架构

在李飞飞看来,当今 AI 的根本局限在于缺乏空间智能。“大语言模型虽然雄辩,却缺乏经验;博学,却未能落地,”她在长文中写道,“它们是黑暗中的文字匠人。”

李飞飞举了一个简单的例子:“你给最先进的多模态大语言模型(Multimodal LLMs,MLLMs)播放几个办公室房间的视频,然后要求它数清楚有多少把不同的椅子。这是一个学龄儿童都能做到的事情,但 AI 做不到。”更不用说那些需要在脑海中旋转物体、估计距离、预测基本物理现象的任务,在这些方面,AI 的表现往往不比随机猜测更好。

相比之下,空间智能渗透在人类活动的方方面面。从日常的停车、接球、倒咖啡,到古希腊学者埃拉托色尼用影子测量地球周长、沃森和克里克用物理模型发现 DNA 双螺旋结构,这些人类智慧的高光时刻都离不开对空间的理解和操控。

“我们对世界的看法是整体的,”李飞飞强调,“不仅仅是我们正在看的东西,还包括一切事物在空间上如何关联、它意味着什么以及为什么重要。通过想象、推理、创造和互动——而非仅仅描述——来理解这一点,正是空间智能的力量。”

在访谈中,她进一步阐述了为什么空间智能对 AI 如此关键:“想象一个非常混乱的第一响应现场,可能是火灾、交通事故或自然灾害。如果你沉浸在那些场景中,思考人们如何组织自己去救人、阻止进一步的灾难、扑灭火焰——很多都是关于移动、对物体和世界的即时理解、情境感知。语言是其中一部分,但在很多情况下,语言无法帮你扑灭火焰。”

“人类认知的核心不仅仅是语言”,李飞飞强调,“而是对三维空间的理解和操作能力。从停车到接钥匙,从设计建筑到发现 DNA 的双螺旋结构,都依赖于空间智能。”

当前的 AI 模型在这方面表现糟糕得令人吃惊。最先进的多模态大语言模型(Multimodal LLMs,MLLMs)在估计距离、方向和大小方面的表现,往往不比随机猜测好多少。它们无法在脑海中旋转物体,无法导航迷宫,无法预测基本的物理现象。AI 生成的视频虽然新奇,但往往在几秒钟后就失去了连贯性。

这也正是李飞飞在 2022 年开始系统性地思考世界模型的原因。这个概念也是她多年计算机视觉和机器人研究的自然延伸。2024 年,她在 TED 演讲中首次系统阐述了空间智能和世界模型的愿景,几个月后,与贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)共同创立了 World Labs。

图丨 World Labs 创始团队(来源:World Labs)

李飞飞为世界模型定义了三个核心能力:生成性——能够创造具有几何和物理一致性的世界;多模态——可以处理图像、视频、文本、动作等多种输入;交互性——能够基于动作预测下一个世界状态。简单来说,如果大语言模型教会了机器读写,世界模型将教会它们观察和建造。

Marble 的诞生:从研究到产品

大约一两个月前,World Labs 团队第一次看到他们的模型通过简单的文字和图像提示,生成出可以自由导航的三维世界。那一刻的震撼,或许类似于当年看到 ImageNet 训练出第一个真正有效的深度神经网络。经过一年多的艰苦研发,全球首个生成式三维世界模型终于诞生。

这就是 11 月发布的 Marble。它与现有的视频生成工具有本质区别。“世界不是被动地观看视频经过,”李飞飞借用柏拉图的洞穴寓言来解释,“视觉的本质是从二维中理解三维或四维世界。”视频生成模型输出的是平面的二维世界,而 Marble 输出的是具有深度空间结构的三维世界——用户可以在其中自由探索、互动,甚至导出特定视角的视频片段。

图丨Marble(来源:World Labs)

产品推出后,应用场景的多样性超出了团队预期。影视制作公司用它大幅加速虚拟制作流程,“他们说这让制作时间缩短了 40 倍”,因为创作者可以在 Marble 生成的三维场景中自由定位摄像机位置并拍摄片段。游戏开发者将 Marble 场景导出为网格数据,用于 VR 游戏或传统游戏开发。

更令人意外的应用来自科学研究领域。一个心理学团队联系 World Labs,希望用 Marble 为精神病学研究创建实验环境。“他们需要理解患者的大脑如何对不同特征的沉浸式环境做出反应,比如杂乱的或整洁的空间。对研究人员来说,获取这类沉浸式场景非常困难,创建它们需要太长时间和太多预算。Marble 几乎能即时提供大量实验环境。”李飞飞说。

机器人研究者也看到了 Marble 的价值。训练机器人需要在多样化的合成环境中学习,但创建这些训练数据一直是巨大痛点。“你希望机器人能在三维世界中执行动作,但训练数据缺乏三维世界中的动作,”李飞飞指出,“世界模型可以生成那些合成环境。否则人类必须为机器人手工构建每一个资产,那将花费更长时间。”

甚至还有人询问能否用 Marble 进行暴露疗法。“昨晚一个朋友给我打电话,谈到他的恐高症,问我 Marble 是否可以用于治疗。”李飞飞说。

机器人的未来:为何“苦涩的教训”还不够

在访谈中,主持人代表投资人本·霍洛维茨(Ben Horowitz)提出了一个问题:为什么 AI 历史上著名的“苦涩教训”(bitter lesson)单独无法解决机器人问题?

“苦涩教训”源自图灵奖得主理查德·萨顿(Richard Sutton)的一篇论文,核心观点是:简单模型加海量数据总是胜过复杂模型加少量数据。这个规律在语言模型上得到了完美验证,而李飞飞建立 ImageNet 的初衷也正是相信大数据的力量。

图丨Richard Sutton(来源:University of Alberta)

但机器人领域不同。“语言模型研究者很幸运,”李飞飞坦言,“他们有完美的设置:训练数据是文字(最终是 token),模型输出也是文字。目标函数和训练数据完美对齐。”

相比之下,机器人面临的挑战更复杂。首先是数据获取困难。虽然可以使用网络视频,但“你希望从机器人那里得到的是在三维世界中的动作,而训练数据缺乏这些”。研究者不得不寻找不同方法来弥补这个“方钉圆孔”的问题,比如远程操作数据或合成数据。

其次,当前主流方法将数据切分为一维或二维 Token 序列,这让一些原本简单的空间任务变得极其困难。“世界模型将在提供这些信息方面发挥决定性作用,”李飞飞说,“但我们必须谨慎,因为我们还处于早期阶段,苦涩教训还有待检验。”

更关键的是,机器人是物理系统,而不仅仅是算法。李飞飞提醒道:“要让机器人工作,我们不仅需要大脑,还需要物理身体和应用场景。”她以自动驾驶汽车为例:从 2005 年斯坦福赛车在内华达沙漠跑完 130 英里,到今天 Waymo 在旧金山街头运营,经历了 20 年历程。“而自动驾驶汽车只是在二维表面运行的金属盒子,目标是不碰到任何东西。机器人则是在三维世界中运行的三维物体,目标恰恰是要接触东西。”

做这些工作时,李飞飞对人类大脑的尊敬与日俱增。“我们的大脑只消耗约 20 瓦功率,比房间里的任何灯泡都暗,却能做这么多事情。说实在的,我在 AI 领域工作得越久,就越尊重人类。”

AGI 的迷思与 AI 的未来

“世界模型”一直以来也被认为是通往 AGI 的关键技术之一,然而作为世界模型的支持者和推动者,李飞飞对 AGI 何时到来这一问题的态度却有点出人意料,在她看来,“AGI 更像是一个营销术语而非科学术语。”

作为科学家,她认真对待的是 AI 本身,也就是那个自 1940 年代图灵提出“机器能思考吗”以来就存在的宏大问题。“我进入这个领域是因为受到这个大胆问题的启发:机器能否像人类一样思考和行动?对我来说,那一直是 AI 的北极星。从这个角度看,我不知道 AI 和 AGI 有什么区别。”

她指出,没有人真正定义过 AGI。“有很多不同的定义,从机器的某种超能力,一直到机器能否成为社会中经济上可行的代理人——换句话说,能够谋生。这算是 AGI 的定义吗?”

当被问及当前技术路径能否达到 AGI 时,李飞飞的回答既现实又充满雄心:“我绝对认为我们需要更多创新。更多数据、更多 GPU 和更大的当前模型架构仍有很多工作要做,但我也绝对认为我们需要创新更多。”

她列举了 AI 仍然无法完成的任务:数清视频中有多少把椅子,展现类似牛顿那样从观察天体运动中推导出运动定律的创造力,或是在师生办公室谈话中展现出的情感认知智能。“人类文明史上没有一个深刻的科学学科在某个时刻说‘我们完成了,我们不再创新了’。AI 作为人类文明中最年轻的学科之一,我们仍在摸索表面。”

最近,DeepMind 的首席执行官德米斯·哈萨比斯(Demis Hassabis)提出了一个有趣的 AGI 测试方法:如果给最先进的模型提供截至 20 世纪末的所有信息,看它能否得出爱因斯坦的突破性发现。“我们离那还很远,”李飞飞说,“事实上情况更糟。即使给 AI 所有数据,包括牛顿时代没有的现代天体仪器数据,让它创造 17 世纪关于物体运动的方程组,今天的 AI 根本做不到。”

李飞飞补充说,情感智能也是巨大的空白。一个学生走进老师办公室,讨论动力、热情和困扰,那种对话的深度,即便是今天最强大的聊天机器人也无法企及。

“AI 是人类文明史上最年轻的学科之一,我们还在摸索表面,”她说。没有任何一个成熟的科学领域会宣称“我们完成了,不需要再创新了”。尽管大型语言模型已经取得了惊人的进展,李飞飞坚信我们需要更多的创新,而不仅仅是更大的数据集、更多的 GPU 和更大规模的现有架构。

以人为本:技术的终极归宿

在采访接近尾声时,李飞飞分享了一个贯穿她整个职业生涯的信念:“你们的领域叫人工智能,但它一点也不‘人工’。它由人启发,由人创造,最重要的是,它影响人。”这是她经常提醒毕业生的话,也是她在 2018 年决定离开工业界、回到斯坦福创立 HAI 的原因。

那一年,她在《纽约时报》发表文章,呼吁为 AI 发展和应用建立一个以人为本的指导框架。HAI 随后成为全球最大的 AI 研究机构,涉及斯坦福七个学院的数百名教师,从医学到教育,从可持续发展到人文学科。

图丨HAI(来源:Stanford University)

但李飞飞强调,她不是乌托邦主义者。“AI 会影响工作和人,这是无可回避的事实。但我相信,AI 目前和未来会做什么,取决于我们,取决于人。”她相信技术对人类文明是净正向的,因为创新是人类的本质。从数千年前的文字记录到今天,人类不断创新,不断改进工具,从而让生活更美好,让工作更高效,构建文明。

然而,她也清醒地认识到技术的双刃剑属性:“如果我们作为社会、作为个体不做正确的事,我们也可能搞砸。”她呼吁每个人都应该关心 AI,因为它会影响你的个人生活、你的社区、整个社会和未来的世代。“作为负责任的个体关心这件事,是第一步,也是最重要的一步。”

在访谈的最后,李飞飞回答了一个她在全球各地旅行时最常被问到的问题:如果我是音乐家、中学教师、护士、会计或农民,我在 AI 时代还有角色吗?

她的回答是:“这是 AI 最重要的问题。答案是响亮的‘是’。每个人都在 AI 中有角色。”她举例说,如果你是年轻艺术家,应该拥抱 AI 作为工具——拥抱 Marble,让它帮助你以最独特的方式讲述你的故事。如果你是护士,她希望你知道,她的整个职业生涯中有很大一部分投入到医疗 AI 研究,因为医护人员过度劳累,AI 可以也应该极大地帮助他们。

“硅谷往往不善于与普通人心对心地交流”,她说,“我们总是抛出‘无限生产力’或‘无限休闲时间’这样的词汇。但归根结底,AI 是关于人的。任何技术都不应夺走人的尊严。人的尊严和能动性,应该是每一项技术开发、部署和治理的核心。”

参考资料:

1.https://www.youtube.com/watch?v=Ctjiatnd6Xk

运营/排版:何晨龙

来源:DeepTech深科技一点号

相关推荐