《量子杂志》:人工智能模型如何创建其环境的物理直觉

B站影视 日本电影 2025-10-04 19:56 1

摘要:这里有一项针对婴儿的测试:给他们看桌上的一杯水。把水藏在一块木板后面。然后把木板移向水杯。如果木板一直经过水杯,就好像水杯不存在一样,他们会感到惊讶吗?许多六个月大的婴儿都会感到惊讶,到一岁时,几乎所有孩子都会通过观察,对物体的持久性产生直觉。现在,一些人工智

Quanta杂志 阿尼尔·阿南塔斯瓦米 特约撰稿人

这里有一项针对婴儿的测试:给他们看桌上的一杯水。把水藏在一块木板后面。然后把木板移向水杯。如果木板一直经过水杯,就好像水杯不存在一样,他们会感到惊讶吗?许多六个月大的婴儿都会感到惊讶,到一岁时,几乎所有孩子都会通过观察,对物体的持久性产生直觉。现在,一些人工智能模型也具备这种能力。

研究人员开发了一种人工智能系统,它可以通过视频了解世界,并在呈现与其所收集的知识相悖的信息时表现出“惊讶”的感觉。

该模型由 Meta 创建,名为“视频联合嵌入预测架构”(V-JEPA),它不对视频中包含的世界的物理特性做出任何假设。尽管如此,它仍然可以理解世界的运作方式。

Micha Heilbron表示:“他们的说法从理论上来说非常合理,而且结果非常有趣。”(打开新标签页)是阿姆斯特丹大学的认知科学家,研究大脑和人工系统如何理解世界。

正如自动驾驶汽车的工程师们所知,让人工智能系统可靠地理解它所看到的内容并非易事。大多数旨在“理解”视频的系统,要么对视频内容进行分类(例如,“一个人在打网球”),要么识别物体的轮廓(例如,前方有一辆车),它们在所谓的“像素空间”中工作。这些模型本质上将视频中的每个像素都视为同等重要。

但这些像素空间模型存在局限性。想象一下,试图理解一条郊区街道。如果场景中有汽车、交通信号灯和树木,模型可能会过于关注不相关的细节,例如树叶的运动。它可能会错过交通信号灯的颜色或附近汽车的位置。“当你处理图像或视频时,你不会想在[像素]空间中工作,因为有太多你不想建模的细节,”兰德尔·巴莱斯特里罗说。(打开新标签页)布朗大学计算机科学家

纽约大学计算机科学家、Meta 人工智能研究主任 Yann LeCun 于 2022 年创建了 JEPA

2024 年发布的 V-JEPA 架构旨在避免这些问题。虽然构成 V-JEPA 的各种人工神经网络的具体细节很复杂,但其基本概念却很简单。

普通的像素空间系统会经历一个训练过程,包括遮盖视频帧中的某些像素,并训练神经网络来预测这些被遮盖像素的值。V-JEPA 也会遮盖部分视频帧。但它不会在单个像素的层面上预测遮盖区域背后的内容。相反,它使用更高层次的抽象,或“潜在”表示,来对内容进行建模。

潜在表征仅捕获数据的基本细节。例如,给定各种圆柱体的线条图,一个称为编码器的神经网络可以学习将每幅图像转换为代表每个圆柱体基本特征的数字,例如其高度、宽度、方向和位置。通过这种方式,数百或数千个像素中包含的信息被转换成几个数字——即潜在表征。然后,一个称为解码器的独立神经网络学习将圆柱体的基本细节转换为圆柱体的图像。

“世界模型”——人工智能领域的一个古老概念——卷土重来

人工智能“世界模型”——人工智能领域的一个古老概念——卷土重来

V-JEPA 专注于创建和重现潜在表征。从高层次来看,该架构分为三个部分:编码器 1、编码器 2 和预测器。首先,训练算法获取一组视频帧,在所有帧中屏蔽相同的像素集,然后将这些帧输入编码器 1。有时,视频的最后几帧会被完全屏蔽。编码器 1 将这些屏蔽的帧转换为潜在表征。该算法还将未屏蔽的帧完整地输入编码器 2,编码器 2 将它们转换为另一组潜在表征。

现在,预测器开始发挥作用。它使用编码器 1 生成的潜在表示来预测编码器 2 的输出。本质上,它采用由掩码帧生成的潜在表示,并预测由未掩码帧生成的潜在表示。通过重建相关的潜在表示,而不是早期系统中缺失的像素,模型学会了识别道路上的车辆,而不是关注树叶。

昆汀·加里多 (Quentin Garrido)表示:“这使得模型能够丢弃不必要的信息,并专注于视频中更重要的方面。”(打开新标签页),Meta 的研究科学家。“丢弃不必要的信息非常重要,这也是 V-JEPA 致力于高效完成的事情。”

预训练阶段完成后,下一步是对 V-JEPA 进行定制,使其能够完成特定任务,例如对图像进行分类或识别视频中描述的动作。此适应阶段需要一些人工标记的数据。例如,视频必须添加与其所含动作相关的标记信息。相比于针对特定下游任务对整个系统进行端到端训练,最终任务所需的标记数据要少得多。此外,相同的编码器和预测器网络可以适应不同的任务。

今年 2 月,V-JEPA 团队报告称(打开新标签页)他们的系统如何理解现实世界的直观物理属性——例如物体的永久性、形状和颜色的恒定性,以及重力和碰撞的影响。在一项名为“IntPhys”的测试中(打开新标签页)需要人工智能模型来识别视频中发生的动作是否符合物理逻辑,V-JEPA 的准确率接近 98%。而一个著名的像素空间预测模型的准确率也只比随机概率高一点点。

自主机器人需要类似物理直觉的东西来规划其动作并与物理环境互动。

V-JEPA 团队还明确量化了模型在预测与观测结果不符时表现出的“惊讶”。他们采用一个在自然视频上预训练的 V-JEPA 模型,输入新的视频,然后用数学方法计算 V-JEPA 预期在视频未来帧中看到的内容与实际发生情况之间的差异。团队发现,当未来帧包含物理上不可能发生的事件时,预测误差会急剧上升。例如,如果一个球滚到某个遮挡物体后面并暂时从视野中消失,那么当球在未来帧中没有从该物体后面重新出现时,模型就会产生误差。这种反应类似于婴儿的直觉反应。可以说,V-JEPA 感到很惊讶。

海尔布隆对 V-JEPA 的能力印象深刻。“我们从发育文献中得知,婴儿不需要太多接触就能学习这类直觉物理学,”他说。“令人信服的是,他们证明了这些直觉物理学是可以学习的,而且你不需要具备所有这些先天的先验知识。”

卡尔·弗里斯顿(打开新标签页)伦敦大学学院的计算神经科学家认为,V-JEPA 在模仿“我们大脑学习和建模世界的方式”方面走在了正确的道路上。然而,它仍然缺少一些基本要素。“目前的方案缺少的是对不确定性的适当编码,”他说道。例如,如果过去帧中的信息不足以准确预测未来帧,则预测是不确定的,而 V-JEPA 并没有量化这种不确定性。

6 月,Meta 的 V-JEPA 团队发布了其下一代 12 亿参数模型V-JEPA 2(打开新标签页)该模型已基于 2200 万个视频进行预训练。他们还将该模型应用于机器人技术:他们展示了如何仅使用约 60 小时的机器人数据(包括机器人视频及其动作信息)进一步微调新的预测网络,然后使用微调后的模型来规划机器人的下一步动作。Garrido 表示:“这样的模型可以用来解决简单的机器人操作任务,并为未来在该方向的研究铺平了道路。”

为了推动 V-JEPA 2,该团队设计了一个更难的直观物理理解基准,称为IntPhys 2(打开新标签页)在这些更严格的测试中,V-JEPA 2 和其他模型的表现仅略好于随机概率。Garrido 表示,原因之一是 V-JEPA 2 只能处理大约几秒钟的视频输入,并预测未来几秒钟的情况。更长的时间会被遗忘。你可以再次将其与婴儿进行比较,但 Garrido 心中想的是一种不同的生物。“从某种意义上说,该模型的记忆让人想起了金鱼,”他说。

来源:人工智能学家

相关推荐