摘要:图灵奖得主 Yann LeCun、斯坦福教授李飞飞与纽约大学谢赛宁领衔的团队,近期发表题为《Cambrian-S:迈向视频中的空间超感知》的重磅论文。
当我们惊叹于 AI 能精准描述视频内容时,顶尖科学家团队却发现了一个残酷真相:当前多模态模型其实在 "假装" 理解视频。
图灵奖得主 Yann LeCun、斯坦福教授李飞飞与纽约大学谢赛宁领衔的团队,近期发表题为《Cambrian-S:迈向视频中的空间超感知》的重磅论文。
这项研究直指行业核心痛点:现有模型看似精通视频问答,实则依赖文本先验知识,缺乏对三维世界连续投影的真正感知能力。
一场从语言中心到空间感知的 AI 范式革命,已然拉开序幕。
长期以来,多模态模型在视频理解基准测试中的优异表现,让行业默认技术已趋于成熟。
但 Yann LeCun 团队的实验,却戳破了这个看似完美的假象。研究团队对 11 个主流视频基准展开解构性分析,设计了五种严苛的测试条件。
结果令人意外:在 EgoSchema、VideoMME 等常用基准上,仅用文本描述替代视频输入,模型性能就能超过随机水平 20% 以上。
这意味着这些测试本质上考察的是文本推理能力,而非真正的视觉理解。更让人惊讶的是,仅在图像上训练、未经过任何视频后训练的 Cambrian-1 模型,在许多视频基准上的表现比随机猜测高出 10 到 30 个百分点。
研究指出,当前多模态模型的进步普遍停留在 "语义感知" 阶段。它们能识别画面中的物体、属性和关系,却无法理解视频作为三维世界连续投影的深层逻辑。
论文明确了空间超感知的五个递进层级:语言理解、语义感知、流式事件认知、隐式三维空间认知、预测性世界建模。
而目前绝大多数视频多模态模型,都还徘徊在前两个层级。人类智能最核心的能力 —— 根据先验预期推理世界状态,在预测被违背时产生 "惊讶" 并引导学习 —— 在现有 AI 系统中完全缺失。
这种认知局限,让模型在面对需要持续空间感知的真实场景时,立刻暴露短板。
为了真正测试 AI 的空间超感知能力,研究团队打造了堪称 "地狱级" 的 VSI-SUPER 基准测试。
这个基准包含两个核心任务,专门针对长视频持续认知能力设计,最长测试视频达 4 小时,远超现有模型的处理极限。
VSR 任务要求模型观看完长视频后,按顺序回忆不寻常物体的出现位置。测试视频中,标注者在四个不同帧插入意外物体,再与其他视频拼接成任意长度的连续视觉流。
这就像在海量视频中 "大海捞针",还要求记住 "针" 出现的先后顺序,本质是难度极高的多跳推理任务。
VSC 任务则考验信息积累能力:模型需要统计多个房间巡览视频中目标物体的总数,期间要应对视角转换、场景切换和物体重复出现等复杂情况。
对人类而言,计数是自然可泛化的能力,但对 AI 来说却成了巨大挑战。测试结果堪称震撼:谷歌最新的 Gemini 2.5 Flash,即便拥有超过 100 万 token 的超大上下文窗口,处理 2 小时视频就已达上限。
即便面对远低于其上下文窗口的 60 分钟视频,它在 VSR 任务中得分仅 41.5%,VSC 任务更是低至 10.9%。
更严重的是,模型预测的物体数量始终稳定在一个小常数,既不随视频长度增加,也不随真实物体数量变化。这表明模型根本没有真正的计数能力,只是在依赖训练数据的统计模式 "猜答案"。
研究揭示了一个根本性矛盾:视频理解是 "无限输入、无限输出" 的开放式任务,连续视觉流可以任意延长。
单纯扩大模型规模、增加上下文长度,可能永远无法解决核心问题 —— 人类能轻松整合数小时甚至数年的感知体验,而当前 AI 缺乏可比拟的持续感知和记忆机制。
面对现有范式的局限,研究团队首先在传统框架内寻求优化,核心突破口就是数据质量。
他们构建了规模庞大的 VSI-590K 数据集,汇集 10 个来源的 59 万个问答对,涵盖带标注真实视频、模拟数据和未标注真实视频三大类。
数据来源十分丰富,包括 S3DIS、ScanNet 等室内场景数据集,ProcTHOR、Hypersim 等模拟环境,还有 YouTube 房间巡览、机器人实测数据等真实世界视频。
基于这套高质量数据集训练的 Cambrian-S 模型,在传统基准测试中实现了颠覆性突破。
7B 参数版本在 VSI-Bench 上达到 67.5% 的准确率,不仅大幅超越所有开源模型,还比谷歌专有模型 Gemini 2.5 Pro 高出 16 个绝对百分点。
更令人惊叹的是,仅 0.5B 参数的微型版本,在 VSI-Bench 上的表现就与 Gemini 1.5 Pro 不相上下。
这一成果证明,在空间推理领域,训练方法的有效性远比模型规模更重要。而且这种对空间技能的强化,并没有牺牲模型的通用能力 ——Cambrian-S 在 Perception Test、EgoSchema 等标准视频基准上,依然保持了竞争力。
但 VSI-SUPER 基准的测试结果,让团队清醒认识到数据驱动的局限。尽管在传统测试中表现优异,Cambrian-S 在长视频任务中依然力不从心。
在 VSR 任务中,它处理 10 分钟视频的准确率为 38.3%,到 60 分钟就骤降至 6.0%,超过 60 分钟则完全失败。
VSC 任务上,该模型在所有时长视频中几乎都无法完成计数。更关键的是,即便在符合模型上下文窗口的短视频中,只要测试场景稍有变化,性能就会大幅下降。
这充分说明,纯数据驱动的方法存在根本性瓶颈,无论投入多少数据或工程努力,都难以突破现有框架的限制。
既然数据驱动已达极限,研究团队提出了真正的破局之道 —— 预测感知范式,这一设计直接借鉴了人类的认知机制。
人类的感知和记忆具有高度选择性,不会记住所有细节,只会重点保留有价值的信息。大脑会持续更新内部模型,预测即将到来的刺激,对于可预测的冗余信息,会直接压缩或丢弃。
而当出现违背预测的意外信息时,就会产生 "惊讶" 感,进而驱动注意力集中和记忆编码。
Cambrian-S 模型正是模仿了这一过程,通过自监督的潜在帧预测模块,为每帧视频计算 "惊讶分数"。
模型以恒定采样率接收视频帧,持续预测下一帧的潜在特征,再通过计算预测与实际帧特征的余弦距离,判断该帧的 "惊讶程度"。
这个自监督信号,成为了模型选择性记忆管理和事件分割的核心控制指令。
在 VSR 任务中,研究团队设计了惊讶驱动的记忆管理系统。系统用滑动窗口注意力编码输入帧,为每帧的键值缓存分配惊讶等级。
惊讶等级低于阈值的帧,在存入长期记忆前会进行 2 倍压缩,同时长期记忆被限制在固定大小,根据惊讶分数动态删除或合并帧。
当收到用户查询时,系统会从长期记忆中检索最相关的帧进行回应。实验结果显示,配备这套系统的 Cambrian-S,在所有视频长度上都优于 Gemini 1.5 Flash 和无记忆系统的自身版本。
更重要的是,它在所有视频长度下都能保持稳定的 GPU 内存占用,证明这种模仿人类无意识推理的方式,能有效压缩冗余数据而不丢失关键信息。
在 VSC 计数任务中,"惊讶" 信号被用作自然断点,将长视频分割成可管理的片段。
模型会在短期记忆中缓冲低惊讶帧,一旦检测到高惊讶帧,就会总结当前缓冲区的结果并清空,最终汇总所有片段答案得到总数。
这种方式完美模仿了人类的解决思路 —— 计数时会自然地分区域处理再求和。测试显示,Gemini 系列模型在长视频计数任务中表现惨淡,而采用惊讶驱动事件分割的 Cambrian-S,在所有视频长度上都保持了稳定且更高的性能。
当使用真实场景转换进行分割时,性能还能进一步提升,接近理论上界。
Yann LeCun 团队的这项研究,不仅揭露了当前多模态模型的认知短板,更指明了未来的发展方向。
它清晰地标定了现有范式的边界:在预分割的短视频片段上,数据驱动方法仍有潜力可挖,但面对真实世界的连续视觉流,单纯扩大模型规模和上下文窗口已无济于事。
预测感知范式的提出,为 AI 视频理解提供了一条更具原则性的路径。通过主动建模视频数据的时空动态,而非依赖静态的逐帧特征度量,AI 正在向真正的视觉认知迈进。
正如论文所强调的,实现超级智能的关键,在于让 AI 超越文本知识和语义感知,发展出空间认知和预测性世界模型。
这场从语言中心到空间感知的范式转换,不仅是技术路线的调整,更是 AI 向人类智能靠拢的重要一步。未来的 AI 将不再是 "读视频的文字"
而是真正 "看懂视频背后的世界",这或许就是通向通用人工智能的必经之路。
来源:知识分子李一
