从 ImageNet 到 World Labs：李飞飞要让 AI 看懂 3D 世界，拿下万亿红利

摘要：我不需要语言模型来说服我世界模型的重要性。——李飞飞在 World Labs 正式亮相时说。

GPT 会说话，但 AI 还不懂世界。

这不是标题党，而是李飞飞二次出发的起点。

2009 年，她用 ImageNet 引爆深度学习，推动视觉革命登上 AI 主舞台。

我不需要语言模型来说服我世界模型的重要性。

——李飞飞在 World Labs 正式亮相时说。

2024 年 9 月，她创办的新公司 World Labs 正式走出隐身期，首轮就拿下 2.3 亿美元融资，投资名单同时出现了 a16z、NEA 与 Nvidia NVentures，估值直指 10 亿美元。

当 OpenAI、Google、Anthropic 等公司都在竞逐更大的语言模型时，李飞飞却进入了一片尚未开垦的领域，提出新概念：

LWM（Large World Model）——

要训练一个能理解、模拟并操作现实 3D 世界的 AI 系统。

这个方向，有人看不懂，有人看得太明白。

市场数据已经画出轮廓：

Grand View Research 预测，全球空间计算市场将以 20.4% CAGR 从 2022 年的 1025 亿美元增长至 4698 亿美元（≈ 3.4 万亿人民币）；IDC 更指出，AR/VR 将以 38.6% CAGR 增长，并成为大模型落地的放大器。

未来，谁先让 AI 拿到空间感，谁就可能在 XR、机器人、数字孪生等万亿级新战场中占住入口，定义规则。

接下来的正文，我们将沿着：

回顾：李飞飞如何从"AI 教母"变身为空间智能创业者；剖析：世界模型为什么是大模型之后的下一块拼图；思考：国内创业者、产品团队、研究者，该如何理解这场隐形战线？

这不只是一场技术方向转向的故事，也是一个关于「AI 感知世界能力」的全新起点。

2009年，李飞飞做了一件改变 AI 历史的事：她给 AI 看了1500万张照片，让它自己学会分辨猫、狗、汽车、椅子......世界上的各种东西。

她说：“我不是在做图片分类器，我是在构建世界地图。”

ImageNet 本质上，是把世界切成一格一格的标签网格。

现在，她又做了类似的事。只不过，这次不是二维的照片，而是三维立体的世界。

AI 的眼睛，其实看不见空间

李飞飞说过一句话：我们一直在训练 AI 用文字生成图片，但没有教它这些图像背后的世界是什么样。

在她看来，大多数 AI 模型，包括 ChatGPT 和 Midjourney，其实就像一个 “看不见场景的说书人”。

它们可以模仿语言风格，生成图片风格，但面对一个房间、一条街道、一个工厂——它们既不知道这些场景怎么连在一起，也无法在其中“走动”或“做事”。

这就像给一个人看照片，他能描述颜色，却不知道东西放在哪里、空间怎么变化、能不能动。

李飞飞认为，这是AI一直缺少的关键能力。

World Labs 要干的，就是解决这个问题。不是让 AI 会说话，而是让它知道自己在世界的哪个角落、可以朝哪个方向移动、能和什么东西互动。

这不是想象。李飞飞给出的目标是：

她举了个例子：一个机器人要从厨房走到卧室，不只是导航，而是要理解空间布局、识别门和墙、预测路径上的障碍，还要和人互动。

换句话说，不是给 AI 一本地图册，而是让它能自己走路、识别环境，并适应变化。

这就是所谓的 LWM（Large World Model）。

为什么语言模型做不到这件事？李飞飞在访谈中提到一个关键问题：语言是靠别人描述的间接经验，空间是靠自己走出来的直接感知。

ChatGPT 可以告诉你“杯子在桌子上”，但它从未真正“看见”杯子放在哪里、桌子是什么材质，甚至根本不知道“上”和“下”在空间中代表什么。

就像你问一个只看过房屋平面图的人：'这个房间住起来感觉怎么样？' 他能说出面积数据，却不知道空间的真实感受。

那接下来该怎么补这一块？

李飞飞没有从零开始造一个大模型。World Labs 的方向是——

“我们不再训练一个知道一切的模型，而是训练一个能在世界中走动的 AI。”

不靠更大的参数，而是靠 “世界的表征” ——换句话说，是靠让 AI 在虚拟空间里反复试、不断学。

这种训练方式，像是教小孩在游戏世界中练习走路、开门、拿东西、说话，最后学会怎样在真实世界中生存。

她不是训练一个会讲道理的助手，而是打造一个能在三维世界中生存的角色。

在这周的播客采访中，李飞飞表示：空间——三维空间，你脑海中的空间……是智能的一个关键部分。

这不是一个比喻，而是她为 World Labs 画出的核心任务边界。

空间智能 ≠ 把图像算出来

很多人一听空间智能，以为是“建模”或“3D 渲染”。

但李飞飞一开始就把这个误解划清了界：

计算图形学能建出漂亮的三维世界，

但智能不是建模，而是理解、推理与执行。

简单说—— AI 不需要画出一个漂亮的厨房，它需要在厨房里找到冰箱、打开冰箱门、拿出牛奶。

这是一种对空间的可操作感，不只是视觉，而是理解 + 动手。

李飞飞在多次演讲中强调：语言是世界的有损压缩，但世界本身是完整的感知结构。

通俗解释：

语言，就像地图，能给你指路；但你要到达终点，必须真的在地面上走一遍。

她进一步指出：

“人类进化早期，靠的就是空间智能——你必须知道哪里有猎物、哪里有悬崖、怎么从森林走出去。”

语言智能是后来的附加项，空间智能才是生存的底层能力。

AI 现在能说很多，却不能动一步，本质上就是没学会这门“原始本能”。

动物都靠它生存，AI 却还缺这门基本功

想想看，无论是老鼠、鸟、猴，还是人，都得搞清楚自己在哪里。这不只是为了生存，也是为了互动。比如：

鸟知道飞行中怎么避开障碍；狗能通过走动探索新环境；人类能靠空间记忆认路、规划行动、搭建工具。

这些不是算法算出来的，而是"身体感知 + 行动反馈"的组合。

今天的 AI 模型，多数还停留在看和说——而真正的突破，需要让它会“动”与“试”。

空间智能=感知 + 模拟 + 执行

这其实是在训练 AI 拥有身体中的大脑——就像我们能在心里想象自己转身或从 A 点走到 B 点。

李飞飞称这类能力是：

这句话很抽象，简单来说，其实就是一句话：空间智能不是靠语言推理，而是靠身体学习。

我们来对比一下语言模型（LLM）与世界模型（LWM）的核心区别：

如果 AI 没有空间感，它永远只是一个写在文档里的好建议，而不是能亲自动手做事的搭档。

在李飞飞看来，AI 要真正落地，不是再提升参数量或模型大小，而是走出语料库的幻觉，进入一个真实、有障碍、能犯错的世界。

这句话的意思是：未来每一个和现实世界打交道的场景——无论是动手做事、建模创作，还是沉浸式体验——都绕不开空间理解。

空间智能不是某个产品功能，而是未来 AI 融入生活和工作的共通语言。

她点出了三类正在快速落地的万亿市场：

创造力不仅仅为了娱乐，它也可以是为了生产力。

在李飞飞看来，AI 正在从写文案进化到做设计。尤其在电影、工业建模、建筑设计这些需要三维空间感的创作场景中，传统的大模型不够用——它们只懂语言，不理解结构。

World Labs 的一个目标，就是要让 AI 能参与真正的空间创作，比如：

用语言生成 3D 建筑图纸；理解一个舞台的空间布局；协助工业设计师重构复杂设备。

李飞飞表示，ChatGPT等大模型的成功让她意识到，开发3D世界模型的时机已经成熟。

② 机器人场景：AI 要能“看懂环境”、接到任务、动手执行

这是李飞飞讲得最朴素、也最具挑战的落点。

她说：如果你想让 AI 扫地、叠衣服、照顾老人——它首先得理解三维空间。

语言智能可以说出怎么做，但机器人要能做出来，前提是它能分清空间中的物体、方向、动作逻辑。而这正是当前 AI 的短板。

World Labs 想做的，是为这些“动手型 AI”提供一套空间基础——像是给它们一副可以导航、避障、拿稳东西的“大脑”。

她提醒说：“我们人类天生就会这个。但对 AI 来说，这是新的感官和技能。”

③ 虚拟世界场景：空间智能是沉浸体验的“骨架层”

最后是虚拟空间——XR、游戏、数字孪生、远程训练，这些看起来虚拟的东西，其实非常实用。

李飞飞指出：“空间智能让这些虚拟环境变得有意义，而不只是画面上的动图。”

比如：

在 XR 中引导你操作复杂设备；在数字训练系统中模拟现实；在元宇宙中生成可信、可互动的空间。

我们过去总以为 AI 是坐在你屏幕里回答问题的人，现在，它要成为你身边能带你去哪里、做什么的伙伴。

说这些不是为了画大饼，而是想告诉大家：空间智能正在把AI从屏幕里带到现实中。

第一节我们讲了语言模型像是“看不见场景的说书人”，只能复述描述，无法进入空间。

那 AI 到底缺了什么？

李飞飞说，这不是参数、算力的问题，而是少了一种我们从小靠它活着的能力——空间感知。

她曾有一次特殊经历：因为眼睛受伤，她暂时看不出远近了，世界变成了"平面"的。她回忆说："哪怕只是几个月，我都没法开车、倒咖啡，很多最基本的事情都做不了。"

正是这段经历让她意识到：我们以为“看懂世界”很简单，其实是大脑与身体协同进化的成果。而 AI，现在恰恰缺的，就是这种 “立体感”。

GPT 能说世界，但看不懂空间

过去几年，AI 在语言这条线上突飞猛进，ChatGPT 能写诗、DeepSeek 能总结。

但李飞飞说，这些 AI 其实是坐在二维平面上想问题的。

“GPT 能生成一个你想象中的厨房，但它不知道微波炉在冰箱旁边，距离够不够你开门。”

也就是说， AI 缺的不是词汇，而是空间感知能力。

真正能干活的 AI，要过四道空间关卡。李飞飞把这些核心任务总结成四个词：

测距、导航、预测遮挡、理解形状。

这不是建模抽象结构，而是和现实场景打交道时最基础的感知力。比如：

不知道一个杯子多高，就无法判断能不能放进抽屉；不理解遮挡关系，就会误认为两样东西是贴在一起的；没有形状感知，就分不清旋转一个物体意味着什么。

她认为：这些并不是视觉识别的高难任务，而是进入物理世界的门槛。

World Labs：要训练出 AI 的3D 常识

为了解决这个问题，World Labs 在用几种新技术重新训练 AI：

NeRF（神经辐射场）：让 AI 学会从多张照片合成出 3D 空间；高斯点云（Gaussian Splatting）：用稠密、模糊的方式表达不确定的结构；合成空间数据：制造大量“人类难以手工标注”的 3D 世界训练集。

李飞飞说：我们不是在堆数据，而是在教 AI 用空间的方式去理解世界。

这是一个底层视角的转变——从喂数据到训练感知三维现实。

没有空间智能，AI就只能停留在'说'的层面，永远迈不进'做'的世界。

在采访中，李飞飞提到了一段细节——她为什么选择和 Martin Casado（a16z 合伙人）合作。

不是因为估值高，不是因为融资规模大，而是：

Martin 是我见过最懂世界模型的人之一。

这个评价，不是客套。

李飞飞直言，路演时大多数人都会点头说"听懂了"，但她一眼就能看出： "那只是礼貌的点头，其实他们并没有真懂世界模型到底是什么。

什么是世界模型？不是新术语，而是新思维

她没有专门解释这个词，而是用了更通俗的表达：

'世界是连续的、三维的、充满变化的，我们人类就生活在这样的世界里。而今天的大模型，大多还困在二维网页和静态文本中。'

她强调，世界模型不是一个工程模块，而是一种训练 AI 去构建“自己所处世界”的能力。这意味着：

简单说，就是要让 AI 像一个人一样感知并身处于世界中。

这比训练语言模型复杂得多——因为它涉及时间、空间、行为、物体关系，是“AI 能不能作为行动者存在”的关键前提。

多数人避而不谈，她却选择正面应对。

但 World Labs 不只是她的选择。这其实也在反问所有人：当主流还在追更大的语言模型时，你的下一步，是继续跟着走，还是转身去找下一块拼图？

这不是悬空的问题，而是三类人今天就能考虑的方向：

研究者：现在是投身空间 AI研究的窗口期，NeRF、3D 场景合成、导航预测都是关键赛道；产品团队：不是继续卷参数，而是回头看一眼你的业务——有没有任务，AI 能“动手”解决？创业者：AI 能做什么不重要，重要的是你能用它做什么。空间智能，也许正是你的机会点。

李飞飞没有在造一家公司，而是在构建一种新的思维方式。

World Labs：是技术公司，更是价值观联盟

李飞飞多次强调，World Labs 的团队成员，都是对“空间智能”和“世界模型”有深刻信仰的人。

“我们不是在做一个3D项目，而是在构建一个 AI 可以‘生活在里面’的世界。”

她希望打造的不只是一个空间重建工具，而是一个能站在世界里行动的 AI雏形。

硅谷著名风险投资公司 a16z 也回应说，他投资的原因，正是因为这家公司没有在追随主流路线，而是在重写一条基础路径。

World Labs 的目标，不是去“追一波热钱”，而是从底层重建 AI 的空间理解能力。

而这场空间智能的战役，正因为多数人不愿啃，才留下了真正的先机。

李飞飞没有重复 ImageNet 的成功，而是切入 AI 最被忽视的一维：空间。

她说：

语言是有损编码，世界才是完整结构。

今天的 AI 会说话、能生成，但还不理解空间、不具备动手的能力。而 World Labs，正是在建一个能“看懂世界、协作行动”的 AI。

这不只是技术路线，而是生存方式的重塑。

当AI终于拥有了空间感，

你做的就不再是更大的模型，而是更接近世界的 AI 。

来源：趣闻捕手一点号

标签： gpt 红利 labs imagenet worldlabs

本文地址：http://news.43b.com.cn/a/557177.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐