摘要:我不需要语言模型来说服我世界模型的重要性。——李飞飞在 World Labs 正式亮相时说。
GPT 会说话,但 AI 还不懂世界。
这不是标题党,而是李飞飞二次出发的起点。
2009 年,她用 ImageNet 引爆深度学习,推动视觉革命登上 AI 主舞台。
我不需要语言模型来说服我世界模型的重要性。
——李飞飞在 World Labs 正式亮相时说。
2024 年 9 月,她创办的新公司 World Labs 正式走出隐身期,首轮就拿下 2.3 亿美元融资,投资名单同时出现了 a16z、NEA 与 Nvidia NVentures,估值直指 10 亿美元。
当 OpenAI、Google、Anthropic 等公司都在竞逐更大的语言模型时,李飞飞却进入了一片尚未开垦的领域,提出新概念:
LWM(Large World Model)——
要训练一个能理解、模拟并操作现实 3D 世界的 AI 系统。
这个方向,有人看不懂,有人看得太明白。
市场数据已经画出轮廓:
Grand View Research 预测,全球空间计算市场将以 20.4% CAGR 从 2022 年的 1025 亿美元增长至 4698 亿美元(≈ 3.4 万亿人民币);IDC 更指出,AR/VR 将以 38.6% CAGR 增长,并成为大模型落地的放大器。未来,谁先让 AI 拿到空间感,谁就可能在 XR、机器人、数字孪生等万亿级新战场中占住入口,定义规则。
接下来的正文,我们将沿着:
回顾: 李飞飞如何从"AI 教母"变身为空间智能创业者;剖析: 世界模型为什么是大模型之后的下一块拼图;思考: 国内创业者、产品团队、研究者,该如何理解这场隐形战线?这不只是一场技术方向转向的故事,也是一个关于「AI 感知世界能力」的全新起点。
2009年,李飞飞做了一件改变 AI 历史的事:她给 AI 看了1500万张照片,让它自己学会分辨猫、狗、汽车、椅子......世界上的各种东西。
她说:“我不是在做图片分类器,我是在构建世界地图。”
ImageNet 本质上,是把世界切成一格一格的标签网格。
现在,她又做了类似的事。只不过,这次不是二维的照片,而是三维立体的世界。
AI 的眼睛,其实看不见空间
李飞飞说过一句话:我们一直在训练 AI 用文字生成图片,但没有教它这些图像背后的世界是什么样。
在她看来,大多数 AI 模型,包括 ChatGPT 和 Midjourney,其实就像一个 “看不见场景的说书人”。
它们可以模仿语言风格,生成图片风格,但面对一个房间、一条街道、一个工厂——它们既不知道这些场景怎么连在一起,也无法在其中“走动”或“做事”。
这就像给一个人看照片,他能描述颜色,却不知道东西放在哪里、空间怎么变化、能不能动。
李飞飞认为,这是AI一直缺少的关键能力。
World Labs 要干的,就是解决这个问题。不是让 AI 会说话,而是让它知道自己在世界的哪个角落、可以朝哪个方向移动、能和什么东西互动。
这不是想象。李飞飞给出的目标是:
她举了个例子:一个机器人要从厨房走到卧室,不只是导航,而是要理解空间布局、识别门和墙、预测路径上的障碍,还要和人互动。
换句话说,不是给 AI 一本地图册,而是让它能自己走路、识别环境,并适应变化。
这就是所谓的 LWM(Large World Model)。
为什么语言模型做不到这件事?李飞飞在访谈中提到一个关键问题:语言是靠别人描述的间接经验,空间是靠自己走出来的直接感知。
ChatGPT 可以告诉你“杯子在桌子上”,但它从未真正“看见”杯子放在哪里、桌子是什么材质,甚至根本不知道“上”和“下”在空间中代表什么。就像你问一个只看过房屋平面图的人:'这个房间住起来感觉怎么样?' 他能说出面积数据,却不知道空间的真实感受。
那接下来该怎么补这一块?
李飞飞没有从零开始造一个大模型。World Labs 的方向是——
“我们不再训练一个知道一切的模型,而是训练一个能在世界中走动的 AI。”
不靠更大的参数,而是靠 “世界的表征” ——换句话说,是靠让 AI 在虚拟空间里反复试、不断学。这种训练方式,像是教小孩在游戏世界中练习走路、开门、拿东西、说话,最后学会怎样在真实世界中生存。
她不是训练一个会讲道理的助手,而是打造一个能在三维世界中生存的角色。
在这周的播客采访中,李飞飞表示:空间——三维空间,你脑海中的空间……是智能的一个关键部分。
这不是一个比喻,而是她为 World Labs 画出的核心任务边界。
空间智能 ≠ 把图像算出来
很多人一听空间智能,以为是“建模”或“3D 渲染”。
但李飞飞一开始就把这个误解划清了界:
计算图形学能建出漂亮的三维世界,
但智能不是建模,而是理解、推理与执行。
简单说—— AI 不需要画出一个漂亮的厨房,它需要在厨房里找到冰箱、打开冰箱门、拿出牛奶。
这是一种对空间的可操作感,不只是视觉,而是理解 + 动手。
李飞飞在多次演讲中强调:语言是世界的有损压缩,但世界本身是完整的感知结构。
通俗解释:
语言,就像地图,能给你指路;但你要到达终点,必须真的在地面上走一遍。她进一步指出:
“人类进化早期,靠的就是空间智能——你必须知道哪里有猎物、哪里有悬崖、怎么从森林走出去。”
语言智能是后来的附加项,空间智能才是生存的底层能力。
AI 现在能说很多,却不能动一步,本质上就是没学会这门“原始本能”。
动物都靠它生存,AI 却还缺这门基本功
想想看,无论是老鼠、鸟、猴,还是人,都得搞清楚自己在哪里。 这不只是为了生存,也是为了互动。比如:
鸟知道飞行中怎么避开障碍;狗能通过走动探索新环境;人类能靠空间记忆认路、规划行动、搭建工具。这些不是算法算出来的,而是"身体感知 + 行动反馈"的组合。
今天的 AI 模型,多数还停留在看和说——而真正的突破,需要让它会“动”与“试”。
空间智能=感知 + 模拟 + 执行
这其实是在训练 AI 拥有身体中的大脑——就像我们能在心里想象自己转身或从 A 点走到 B 点。
李飞飞称这类能力是:
这句话很抽象,简单来说,其实就是一句话:空间智能不是靠语言推理,而是靠身体学习。
我们来对比一下语言模型(LLM)与世界模型(LWM)的核心区别:
如果 AI 没有空间感,它永远只是一个写在文档里的好建议,而不是能亲自动手做事的搭档。
在李飞飞看来,AI 要真正落地,不是再提升参数量或模型大小,而是走出语料库的幻觉,进入一个真实、有障碍、能犯错的世界。
这句话的意思是:未来每一个和现实世界打交道的场景——无论是动手做事、建模创作,还是沉浸式体验——都绕不开空间理解。
空间智能不是某个产品功能,而是未来 AI 融入生活和工作的共通语言。
她点出了三类正在快速落地的万亿市场:
创造力不仅仅为了娱乐,它也可以是为了生产力。
在李飞飞看来,AI 正在从写文案进化到做设计。尤其在电影、工业建模、建筑设计这些需要三维空间感的创作场景中,传统的大模型不够用——它们只懂语言,不理解结构。
World Labs 的一个目标,就是要让 AI 能参与真正的空间创作,比如:
用语言生成 3D 建筑图纸;理解一个舞台的空间布局;协助工业设计师重构复杂设备。李飞飞表示,ChatGPT等大模型的成功让她意识到,开发3D世界模型的时机已经成熟。
② 机器人场景:AI 要能“看懂环境”、接到任务、动手执行
这是李飞飞讲得最朴素、也最具挑战的落点。
她说:如果你想让 AI 扫地、叠衣服、照顾老人——它首先得理解三维空间。
语言智能可以说出怎么做,但机器人要能做出来,前提是它能分清空间中的物体、方向、动作逻辑。而这正是当前 AI 的短板。
World Labs 想做的,是为这些“动手型 AI”提供一套空间基础——像是给它们一副可以导航、避障、拿稳东西的“大脑”。
她提醒说:“我们人类天生就会这个。但对 AI 来说,这是新的感官和技能。”
③ 虚拟世界场景:空间智能是沉浸体验的“骨架层”
最后是虚拟空间——XR、游戏、数字孪生、远程训练,这些看起来虚拟的东西,其实非常实用。
李飞飞指出:“空间智能让这些虚拟环境变得有意义,而不只是画面上的动图。”
比如:
在 XR 中引导你操作复杂设备;在数字训练系统中模拟现实;在元宇宙中生成可信、可互动的空间。我们过去总以为 AI 是坐在你屏幕里回答问题的人,现在,它要成为你身边能带你去哪里、做什么的伙伴。
说这些不是为了画大饼,而是想告诉大家:空间智能正在把AI从屏幕里带到现实中。
第一节我们讲了语言模型像是“看不见场景的说书人”,只能复述描述,无法进入空间。
那 AI 到底缺了什么?
李飞飞说,这不是参数、算力的问题,而是少了一种我们从小靠它活着的能力——空间感知。
她曾有一次特殊经历:因为眼睛受伤,她暂时看不出远近了,世界变成了"平面"的。她回忆说:"哪怕只是几个月,我都没法开车、倒咖啡,很多最基本的事情都做不了。"
正是这段经历让她意识到:我们以为“看懂世界”很简单,其实是大脑与身体协同进化的成果。而 AI,现在恰恰缺的,就是这种 “立体感”。
GPT 能说世界,但看不懂空间
过去几年,AI 在语言这条线上突飞猛进,ChatGPT 能写诗、DeepSeek 能总结。
但李飞飞说,这些 AI 其实是坐在二维平面上想问题的。
“GPT 能生成一个你想象中的厨房,但它不知道微波炉在冰箱旁边,距离够不够你开门。”
也就是说, AI 缺的不是词汇,而是空间感知能力。
真正能干活的 AI,要过四道空间关卡。李飞飞把这些核心任务总结成四个词:
测距、导航、预测遮挡、理解形状。
这不是建模抽象结构,而是和现实场景打交道时最基础的感知力。比如:
不知道一个杯子多高,就无法判断能不能放进抽屉;不理解遮挡关系,就会误认为两样东西是贴在一起的;没有形状感知,就分不清旋转一个物体意味着什么。她认为:这些并不是视觉识别的高难任务,而是进入物理世界的门槛。
World Labs:要训练出 AI 的3D 常识
为了解决这个问题,World Labs 在用几种新技术重新训练 AI:
NeRF(神经辐射场):让 AI 学会从多张照片合成出 3D 空间;高斯点云(Gaussian Splatting):用稠密、模糊的方式表达不确定的结构;合成空间数据:制造大量“人类难以手工标注”的 3D 世界训练集。李飞飞说:我们不是在堆数据,而是在教 AI 用空间的方式去理解世界。
这是一个底层视角的转变——从喂数据到训练感知三维现实。
没有空间智能,AI就只能停留在'说'的层面,永远迈不进'做'的世界。
在采访中,李飞飞提到了一段细节——她为什么选择和 Martin Casado(a16z 合伙人)合作。
不是因为估值高,不是因为融资规模大,而是:
Martin 是我见过最懂世界模型的人之一。
这个评价,不是客套。
李飞飞直言,路演时大多数人都会点头说"听懂了",但她一眼就能看出: "那只是礼貌的点头,其实他们并没有真懂世界模型到底是什么。
什么是世界模型?不是新术语,而是新思维
她没有专门解释这个词,而是用了更通俗的表达:
'世界是连续的、三维的、充满变化的,我们人类就生活在这样的世界里。而今天的大模型,大多还困在二维网页和静态文本中。'
她强调,世界模型不是一个工程模块,而是一种训练 AI 去构建“自己所处世界”的能力。这意味着:
简单说,就是要让 AI 像一个人一样感知并身处于世界中。
这比训练语言模型复杂得多——因为它涉及时间、空间、行为、物体关系,是“AI 能不能作为行动者存在”的关键前提。
多数人避而不谈,她却选择正面应对。
但 World Labs 不只是她的选择。这其实也在反问所有人:当主流还在追更大的语言模型时,你的下一步,是继续跟着走,还是转身去找下一块拼图?
这不是悬空的问题,而是三类人今天就能考虑的方向:
研究者:现在是投身空间 AI研究的窗口期,NeRF、3D 场景合成、导航预测都是关键赛道;产品团队:不是继续卷参数,而是回头看一眼你的业务——有没有任务,AI 能“动手”解决?创业者:AI 能做什么不重要,重要的是你能用它做什么。空间智能,也许正是你的机会点。李飞飞没有在造一家公司,而是在构建一种新的思维方式。
World Labs:是技术公司,更是价值观联盟
李飞飞多次强调,World Labs 的团队成员,都是对“空间智能”和“世界模型”有深刻信仰的人。
“我们不是在做一个3D项目,而是在构建一个 AI 可以‘生活在里面’的世界。”
她希望打造的不只是一个空间重建工具,而是一个能站在世界里行动的 AI雏形。
硅谷著名风险投资公司 a16z 也回应说,他投资的原因,正是因为这家公司没有在追随主流路线,而是在重写一条基础路径。
World Labs 的目标,不是去“追一波热钱”,而是从底层重建 AI 的空间理解能力。
而这场空间智能的战役,正因为多数人不愿啃,才留下了真正的先机。
李飞飞没有重复 ImageNet 的成功,而是切入 AI 最被忽视的一维:空间。
她说:
语言是有损编码,世界才是完整结构。
今天的 AI 会说话、能生成,但还不理解空间、不具备动手的能力。而 World Labs,正是在建一个能“看懂世界、协作行动”的 AI。
这不只是技术路线,而是生存方式的重塑。
当AI终于拥有了空间感,
你做的就不再是更大的模型,而是更接近世界的 AI 。
来源:趣闻捕手一点号