摘要:最近,李飞飞、谢赛宁、Yann LeCun 等大佬频频提到一个词——空间智能(Spatial Intelligence)。它不是单纯“看懂图像或视频”,而是理解空间结构、记住发生的事情,并能预测未来。换句话说,真正的 AI 不只是“看见”,还要感知、理解,并主
最近,李飞飞、谢赛宁、Yann LeCun 等大佬频频提到一个词——空间智能(Spatial Intelligence)。它不是单纯“看懂图像或视频”,而是理解空间结构、记住发生的事情,并能预测未来。换句话说,真正的 AI 不只是“看见”,还要感知、理解,并主动组织经验,这是未来多模态智能的核心能力。
就在近期,这三位大佬首次联手,发布了论文《Cambrian-S:迈向视频中的空间超感知》。
论文提出了全新的范式——超感知(Supersensing):AI 模型不仅要看到、识别、回答,还要能记住、理解场景的三维结构,并预测未来、组织经验,通过此过程构建出自己的内部世界模型(Internal World Model)。
论文共同一作Shusheng Yang在X上表示:真正具备超感知智能的系统,需要主动预测、筛选并组织感官输入,而不仅仅是被动接收信息。
谢赛宁则指出,Cambrian-S 是团队在视频中探索空间超感知的初步尝试。虽然论文篇幅很长,但细节丰富、观点前沿,如果你关注视频多模态模型,绝对值得一读。
去年,谢赛宁团队就发布了 Cambrian-1 —— 一个面向图像的开放式多模态模型探索项目。但他们没有急着去构建 Cambrian-2 或 Cambrian-3,而是先停下来思考:
什么才是真正的多模态智能?用大语言模型(LLM)的范式去建模感知,真的合理吗?为什么人类的感知如此轻松、直觉,却又极其强大?团队意识到,有某种根本性的东西还缺失。谢赛宁表示,如果没有先构建出“超感知(supersensing)”,就不可能构建出“超级智能(superintelligence)”。
那么,什么是超感知?它并不是指更先进的传感器或更高端的摄像机,而是指一个数字生命体如何真正体验世界——它能够持续吸收无尽的感官输入流,并从中不断学习。
超感知是智能的一部分,就像眼睛是大脑与外界接触的那一部分。你不需要感知就能解决编程或数学问题。但如果是要让 AI 代理在真实世界中行动,那它就必须具备感知建模(sensory modeling)能力。谢赛宁还引用了 Karpathy 大神所说的,感知建模也许正是智能所需要的一切。
研究团队将超感知能力划分为五个层级:
1、无感知能力(No sensory capabilities):例如语言模型(LLMs),只具备语言理解。它们的推理仅限于文本与符号,其“世界知识”并非基于真实物理世界的感知。
2、语义感知(Semantic perception):能够将像素解析为物体、属性与关系。这一层级对应当前多模态大模型(MLLM)在“看图说话”等任务中表现出的强大能力。
3、流式事件认知(Streaming event cognition):能够处理实时、无边界的数据流,并主动解释与响应正在发生的事件。这一方向与当前让 MLLM 成为实时助理的努力相契合。
4、隐式三维空间认知(Implicit 3D spatial cognition):能够理解视频是三维世界的投影。智能体必须知道“有哪些物体”、“它们在哪里”、“彼此如何关联”,以及“这些空间配置如何随时间变化”。当下的视频模型在这一层面仍然非常受限。
5、预测性世界建模(Predictive world modeling):人脑通过基于先验预期预测潜在的世界状态,从而进行“无意识推理”。当预测被打破时,“惊讶(surprise)”会引导注意力、记忆与学习。然而,当前的多模态系统缺乏这种能够预判未来状态的内部模型,也无法利用“惊讶”机制去组织感知、形成记忆或做出决策。
为回答这个问题,研究团队对现有的视频基准进行了系统审查,发现尽管这些基准在一定程度上具有研究价值,但大多数视频基准主要关注语言理解和语义感知,而忽视了更高层次的空间超感知能力。
一些新近基准(例如 VSI-Bench)确实开始关注空间感知,但它们仍局限于有限的视频时长。因此,它们难以反映视觉流(visual streams)那种无边界、连续性强的特性——而这恰恰是实现“超感知”以及应对真实世界挑战所必需的能力。
于是,他们提出了一套新的基准 VSI-SUPER——谢赛宁说这是一套更“笨”但更难”的版本,它包含两条任务:
1、VSI-SUPER Recall(VSR):要求模型在长时程的时空视频中观察,并依次回忆出一个异常物体的位置。
2、VSI-SUPER Count(VSC):测试多模态大模型(MLLM)在长视频场景中持续累积空间信息的能力。
VSR 和 VSC 的设计目的都是打破现有范式,通过将多个短视频片段拼接成任意长度的长视频,来考察模型对“无界视觉流”的理解与记忆能力。
团队测试了当下最强的视频多模态模型之一 —— Gemini-2.5 Flash,结果发现:尽管 Gemini 在通用视频基准上表现领先,但在 VSI-SUPER 上仍然失败。
你可能会问——这不就是一个数据或规模(scaling)问题吗?
谢赛宁表示,某种程度上,确实是。但这也是他们为什么要构建全新的 Cambrian-S 视频多模态大模型系列。团队希望在现有范式下尽可能地推动极限。他们认为,数据与规模对于实现超感知(supersensing)是必要的,但并非充分条件。核心问题在于:目前根本没有真正用于空间认知的训练数据。
因此,团队构建了 VSI-590K 数据集,它包含 59 万条训练样本,来源包括:
第一人称视角探索的室内环境(带 3D 标注)模拟器生成的视频利用 VGGT 等视觉工具进行伪标注的 YouTube 视频团队还探索了后训练策略、数据混合方案以及一系列工程细节,训练了从 0.5B 到 7B 参数规模的模型。
结果显示:这些模型在空间推理上表现强劲,比基础 MLLM 提升高达 30%,即便是最小的模型也表现不俗。
数据与模型已经开源,但他们很明确:这仍然无法解决 VSI-SUPER 的任务。团队越来越确信,用 LLM 的方式去构建多模态模型,并不是通向超感知的最终道路。
基于上述基础,团队打造了 Cambrian-S 系列模型,其特点包括:1、具备竞争力的通用视频/图像理解能力2、领先的空间感知性能
团队还观察到:1、它能够很好地泛化到未见过的空间任务2、在去偏测试(debias stress test)下表现稳健
然而,它在 VSI-SUPER 上仍然失败:1、在 VSR(长时程空间回忆) 任务中,几乎无法泛化到超过 60 分钟的视频2、在 VSC(持续计数) 任务中,10 分钟视频的计数仍然困难
展望未来,团队正在原型化一个新方向——预测感知(predictive sensing)。论文引用了大量来自认知科学和发展心理学的研究,这些研究指出,人类视觉系统带宽极高,但效率惊人。每只眼睛约有 600 万个视锥细胞,理论传输速度约 1.6 Gbit/s,但大脑仅用约 10 bits/s 来指导行为。
举一个 Jurgen 提出的世界模型例子:
以棒球为例。棒球击球手只有几毫秒的时间决定如何挥棒——这比视觉信号从眼睛传到大脑所需的时间还短。我们之所以能击中每小时 100 英里(约 160 公里)的快速球,是因为我们能够本能地预测球的运动方向与落点。对于职业球员来说,这一切几乎都是无意识完成的。
Credit: https://worldmodels.github.io/
那么,大脑是如何做到的呢?一个领先理论是:大脑在后台运行一个预测性世界模型(predictive world model)来进行感知,不断预测未来并与实际发生的情况比较。
如果预测误差低 → 属于预期,可忽略如果预测误差高 → 属于惊讶(surprise),大脑会注意并更新记忆而目前的 LLMs 中,还没有可比的机制。
为了验证这一想法,团队在 Cambrian-S 上训练了一个潜变量帧预测(latent frame prediction, LFP)头,在推理阶段,模型会持续预测下一个输入的期望,将该期望与实际观测进行比较,将两者的差异定义为“惊讶值(surprise)”。“惊讶值”用于两方面:
1、惊讶驱动的记忆管理 —— 压缩或跳过不令人惊讶的帧,将计算资源集中在惊讶帧上2、惊讶驱动的事件分割 —— 利用惊讶峰值检测事件边界或场景变化
通过利用这个内部预测模型提供的信号,已经在空间认知任务上看到了喜人的性能提升。
这目前只是一个简化的预测性世界模型原型——但仅凭这一机制,小模型就在VSI-Super评测基准上超越了Gemini。
值得一提的是,团队还同步发布了两个相关项目:
1、关于多模态基准设计的研究:如何对基准进行应力测试,以及如何正确去除语言偏差
2、一份经验总结:构建模拟器以收集空间感知视频,也是为 Cambrian-S 使用的数据来源
共同一作Shusheng Yang是纽约大学计算机科学专业的博士生,曾参与 Qwen 模型的开发,指导老师是谢赛宁教授。
共同一作Jihan Yang,是纽约大学库朗研究所的一名博士后副研究员,师从谢赛宁教授。此前,Jihan Yang于香港大学获得了博士学位,中山大学获得了学士学位。 他的研究兴趣集中在机器学习和计算机视觉领域,特别关注多模态和具身智能。
核心作者黄品志是纽约大学本科生,师从谢赛宁教授,曾在谷歌Gemini 实习。
目前所有链接已经开源:
项目主页:https://cambrian-mllm.github.io/
论文链接:https://arxiv.org/abs/2511.04670
代码链接:https://github.com/cambrian-mllm/cambrian-s
Cambrian-S 模型合集:https://huggingface.co/collections/nyu-visionx/cambrian-s-models
VSI-590K 数据集:https://huggingface.co/datasets/nyu-visionx/VSI-590K
VSI-SUPER 基准合集:https://huggingface.co/collections/nyu-visionx/vsi-super
来源:51CTO
