从 ImageNet 到 World Labs:李飞飞要让 AI 看懂 3D 世界,拿下万亿红利

B站影视 韩国电影 2025-06-09 13:45 2

摘要:我不需要语言模型来说服我世界模型的重要性。——李飞飞在 World Labs 正式亮相时说。

GPT 会说话,但 AI 还不懂世界。

这不是标题党,而是李飞飞二次出发的起点。

2009 年,她用 ImageNet 引爆深度学习,推动视觉革命登上 AI 主舞台。

我不需要语言模型来说服我世界模型的重要性。

——李飞飞在 World Labs 正式亮相时说。

2024 年 9 月,她创办的新公司 World Labs 正式走出隐身期,首轮就拿下 2.3 亿美元融资,投资名单同时出现了 a16z、NEA 与 Nvidia NVentures,估值直指 10 亿美元。

当 OpenAI、Google、Anthropic 等公司都在竞逐更大的语言模型时,李飞飞却进入了一片尚未开垦的领域,提出新概念:

LWM(Large World Model)——

要训练一个能理解、模拟并操作现实 3D 世界的 AI 系统。

这个方向,有人看不懂,有人看得太明白。

市场数据已经画出轮廓:

Grand View Research 预测,全球空间计算市场将以 20.4% CAGR 从 2022 年的 1025 亿美元增长至 4698 亿美元(≈ 3.4 万亿人民币);IDC 更指出,AR/VR 将以 38.6% CAGR 增长,并成为大模型落地的放大器。

未来,谁先让 AI 拿到空间感,谁就可能在 XR、机器人、数字孪生等万亿级新战场中占住入口,定义规则。

接下来的正文,我们将沿着:

回顾: 李飞飞如何从"AI 教母"变身为空间智能创业者;剖析: 世界模型为什么是大模型之后的下一块拼图;思考: 国内创业者、产品团队、研究者,该如何理解这场隐形战线?

这不只是一场技术方向转向的故事,也是一个关于「AI 感知世界能力」的全新起点。

2009年,李飞飞做了一件改变 AI 历史的事:她给 AI 看了1500万张照片,让它自己学会分辨猫、狗、汽车、椅子......世界上的各种东西。

她说:“我不是在做图片分类器,我是在构建世界地图。”

ImageNet 本质上,是把世界切成一格一格的标签网格。

现在,她又做了类似的事。只不过,这次不是二维的照片,而是三维立体的世界。

AI 的眼睛,其实看不见空间

李飞飞说过一句话:我们一直在训练 AI 用文字生成图片,但没有教它这些图像背后的世界是什么样。

在她看来,大多数 AI 模型,包括 ChatGPT 和 Midjourney,其实就像一个 “看不见场景的说书人”

它们可以模仿语言风格,生成图片风格,但面对一个房间、一条街道、一个工厂——它们既不知道这些场景怎么连在一起,也无法在其中“走动”或“做事”。

这就像给一个人看照片,他能描述颜色,却不知道东西放在哪里、空间怎么变化、能不能动。

李飞飞认为,这是AI一直缺少的关键能力。

World Labs 要干的,就是解决这个问题。不是让 AI 会说话,而是让它知道自己在世界的哪个角落、可以朝哪个方向移动、能和什么东西互动。

这不是想象。李飞飞给出的目标是:

她举了个例子:一个机器人要从厨房走到卧室,不只是导航,而是要理解空间布局、识别门和墙、预测路径上的障碍,还要和人互动。

换句话说,不是给 AI 一本地图册,而是让它能自己走路、识别环境,并适应变化。

这就是所谓的 LWM(Large World Model)。

为什么语言模型做不到这件事?李飞飞在访谈中提到一个关键问题:语言是靠别人描述的间接经验,空间是靠自己走出来的直接感知。

ChatGPT 可以告诉你“杯子在桌子上”,但它从未真正“看见”杯子放在哪里、桌子是什么材质,甚至根本不知道“上”和“下”在空间中代表什么。

就像你问一个只看过房屋平面图的人:'这个房间住起来感觉怎么样?' 他能说出面积数据,却不知道空间的真实感受。

那接下来该怎么补这一块?

李飞飞没有从零开始造一个大模型。World Labs 的方向是——

“我们不再训练一个知道一切的模型,而是训练一个能在世界中走动的 AI。”

不靠更大的参数,而是靠 “世界的表征” ——换句话说,是靠让 AI 在虚拟空间里反复试、不断学。

这种训练方式,像是教小孩在游戏世界中练习走路、开门、拿东西、说话,最后学会怎样在真实世界中生存。

她不是训练一个会讲道理的助手,而是打造一个能在三维世界中生存的角色。

在这周的播客采访中,李飞飞表示:空间——三维空间,你脑海中的空间……是智能的一个关键部分。

这不是一个比喻,而是她为 World Labs 画出的核心任务边界。

空间智能 ≠ 把图像算出来

很多人一听空间智能,以为是“建模”或“3D 渲染”。

但李飞飞一开始就把这个误解划清了界:

计算图形学能建出漂亮的三维世界,

但智能不是建模,而是理解、推理与执行。

简单说—— AI 不需要画出一个漂亮的厨房,它需要在厨房里找到冰箱、打开冰箱门、拿出牛奶。

这是一种对空间的可操作感,不只是视觉,而是理解 + 动手。

李飞飞在多次演讲中强调:语言是世界的有损压缩,但世界本身是完整的感知结构。

通俗解释:

语言,就像地图,能给你指路;但你要到达终点,必须真的在地面上走一遍。

她进一步指出:

“人类进化早期,靠的就是空间智能——你必须知道哪里有猎物、哪里有悬崖、怎么从森林走出去。”

语言智能是后来的附加项,空间智能才是生存的底层能力。

AI 现在能说很多,却不能动一步,本质上就是没学会这门“原始本能”。

动物都靠它生存,AI 却还缺这门基本功

想想看,无论是老鼠、鸟、猴,还是人,都得搞清楚自己在哪里。 这不只是为了生存,也是为了互动。比如:

鸟知道飞行中怎么避开障碍;狗能通过走动探索新环境;人类能靠空间记忆认路、规划行动、搭建工具。

这些不是算法算出来的,而是"身体感知 + 行动反馈"的组合。

今天的 AI 模型,多数还停留在看和说——而真正的突破,需要让它会“动”与“试”。

空间智能=感知 + 模拟 + 执行

这其实是在训练 AI 拥有身体中的大脑——就像我们能在心里想象自己转身或从 A 点走到 B 点。

李飞飞称这类能力是:

这句话很抽象,简单来说,其实就是一句话:空间智能不是靠语言推理,而是靠身体学习。

我们来对比一下语言模型(LLM)与世界模型(LWM)的核心区别:

如果 AI 没有空间感,它永远只是一个写在文档里的好建议,而不是能亲自动手做事的搭档。

在李飞飞看来,AI 要真正落地,不是再提升参数量或模型大小,而是走出语料库的幻觉,进入一个真实、有障碍、能犯错的世界。

这句话的意思是:未来每一个和现实世界打交道的场景——无论是动手做事、建模创作,还是沉浸式体验——都绕不开空间理解。

空间智能不是某个产品功能,而是未来 AI 融入生活和工作的共通语言。

她点出了三类正在快速落地的万亿市场:

创造力不仅仅为了娱乐,它也可以是为了生产力。

在李飞飞看来,AI 正在从写文案进化到做设计。尤其在电影、工业建模、建筑设计这些需要三维空间感的创作场景中,传统的大模型不够用——它们只懂语言,不理解结构。

World Labs 的一个目标,就是要让 AI 能参与真正的空间创作,比如:

用语言生成 3D 建筑图纸;理解一个舞台的空间布局;协助工业设计师重构复杂设备。

李飞飞表示,ChatGPT等大模型的成功让她意识到,开发3D世界模型的时机已经成熟。

② 机器人场景:AI 要能“看懂环境”、接到任务、动手执行

这是李飞飞讲得最朴素、也最具挑战的落点。

她说:如果你想让 AI 扫地、叠衣服、照顾老人——它首先得理解三维空间。

语言智能可以说出怎么做,但机器人要能做出来,前提是它能分清空间中的物体、方向、动作逻辑。而这正是当前 AI 的短板。

World Labs 想做的,是为这些“动手型 AI”提供一套空间基础——像是给它们一副可以导航、避障、拿稳东西的“大脑”。

她提醒说:“我们人类天生就会这个。但对 AI 来说,这是新的感官和技能。”

③ 虚拟世界场景:空间智能是沉浸体验的“骨架层”

最后是虚拟空间——XR、游戏、数字孪生、远程训练,这些看起来虚拟的东西,其实非常实用。

李飞飞指出:“空间智能让这些虚拟环境变得有意义,而不只是画面上的动图。”

比如:

在 XR 中引导你操作复杂设备;在数字训练系统中模拟现实;在元宇宙中生成可信、可互动的空间。

我们过去总以为 AI 是坐在你屏幕里回答问题的人,现在,它要成为你身边能带你去哪里、做什么的伙伴。

说这些不是为了画大饼,而是想告诉大家:空间智能正在把AI从屏幕里带到现实中。

第一节我们讲了语言模型像是“看不见场景的说书人”,只能复述描述,无法进入空间。

那 AI 到底缺了什么?

李飞飞说,这不是参数、算力的问题,而是少了一种我们从小靠它活着的能力——空间感知。

她曾有一次特殊经历:因为眼睛受伤,她暂时看不出远近了,世界变成了"平面"的。她回忆说:"哪怕只是几个月,我都没法开车、倒咖啡,很多最基本的事情都做不了。"

正是这段经历让她意识到:我们以为“看懂世界”很简单,其实是大脑与身体协同进化的成果。而 AI,现在恰恰缺的,就是这种 “立体感”

GPT 能说世界,但看不懂空间

过去几年,AI 在语言这条线上突飞猛进,ChatGPT 能写诗、DeepSeek 能总结。

但李飞飞说,这些 AI 其实是坐在二维平面上想问题的。

“GPT 能生成一个你想象中的厨房,但它不知道微波炉在冰箱旁边,距离够不够你开门。”

也就是说, AI 缺的不是词汇,而是空间感知能力。

真正能干活的 AI,要过四道空间关卡。李飞飞把这些核心任务总结成四个词:

测距、导航、预测遮挡、理解形状。

这不是建模抽象结构,而是和现实场景打交道时最基础的感知力。比如:

不知道一个杯子多高,就无法判断能不能放进抽屉;不理解遮挡关系,就会误认为两样东西是贴在一起的;没有形状感知,就分不清旋转一个物体意味着什么。

她认为:这些并不是视觉识别的高难任务,而是进入物理世界的门槛。

World Labs:要训练出 AI 的3D 常识

为了解决这个问题,World Labs 在用几种新技术重新训练 AI:

NeRF(神经辐射场):让 AI 学会从多张照片合成出 3D 空间;高斯点云(Gaussian Splatting):用稠密、模糊的方式表达不确定的结构;合成空间数据:制造大量“人类难以手工标注”的 3D 世界训练集。

李飞飞说:我们不是在堆数据,而是在教 AI 用空间的方式去理解世界。

这是一个底层视角的转变——从喂数据到训练感知三维现实。

没有空间智能,AI就只能停留在'说'的层面,永远迈不进'做'的世界。

在采访中,李飞飞提到了一段细节——她为什么选择和 Martin Casado(a16z 合伙人)合作。

不是因为估值高,不是因为融资规模大,而是:

Martin 是我见过最懂世界模型的人之一。

这个评价,不是客套。

李飞飞直言,路演时大多数人都会点头说"听懂了",但她一眼就能看出: "那只是礼貌的点头,其实他们并没有真懂世界模型到底是什么。

什么是世界模型?不是新术语,而是新思维

她没有专门解释这个词,而是用了更通俗的表达:

'世界是连续的、三维的、充满变化的,我们人类就生活在这样的世界里。而今天的大模型,大多还困在二维网页和静态文本中。'

她强调,世界模型不是一个工程模块,而是一种训练 AI 去构建“自己所处世界”的能力。这意味着:

简单说,就是要让 AI 像一个人一样感知并身处于世界中。

这比训练语言模型复杂得多——因为它涉及时间、空间、行为、物体关系,是“AI 能不能作为行动者存在”的关键前提。

多数人避而不谈,她却选择正面应对。

但 World Labs 不只是她的选择。这其实也在反问所有人:当主流还在追更大的语言模型时,你的下一步,是继续跟着走,还是转身去找下一块拼图?

这不是悬空的问题,而是三类人今天就能考虑的方向:

研究者:现在是投身空间 AI研究的窗口期,NeRF、3D 场景合成、导航预测都是关键赛道;产品团队:不是继续卷参数,而是回头看一眼你的业务——有没有任务,AI 能“动手”解决?创业者:AI 能做什么不重要,重要的是你能用它做什么。空间智能,也许正是你的机会点。

李飞飞没有在造一家公司,而是在构建一种新的思维方式。

World Labs:是技术公司,更是价值观联盟

李飞飞多次强调,World Labs 的团队成员,都是对“空间智能”和“世界模型”有深刻信仰的人。

“我们不是在做一个3D项目,而是在构建一个 AI 可以‘生活在里面’的世界。”

她希望打造的不只是一个空间重建工具,而是一个能站在世界里行动的 AI雏形。

硅谷著名风险投资公司 a16z 也回应说,他投资的原因,正是因为这家公司没有在追随主流路线,而是在重写一条基础路径。

World Labs 的目标,不是去“追一波热钱”,而是从底层重建 AI 的空间理解能力。

而这场空间智能的战役,正因为多数人不愿啃,才留下了真正的先机。

李飞飞没有重复 ImageNet 的成功,而是切入 AI 最被忽视的一维:空间。

她说:

语言是有损编码,世界才是完整结构。

今天的 AI 会说话、能生成,但还不理解空间、不具备动手的能力。而 World Labs,正是在建一个能“看懂世界、协作行动”的 AI。

这不只是技术路线,而是生存方式的重塑。

当AI终于拥有了空间感,

你做的就不再是更大的模型,而是更接近世界的 AI 。

来源:趣闻捕手一点号

相关推荐