黄仁勋力捧的「物理AI」咋实现?英伟达科学家Jim Fan做了一个演讲

B站影视 韩国电影 2025-05-19 01:15 1

摘要:从大语言模型(LLM)到智能体(agent),人工智能(AI)技术正以前所未有的速度改变人类世界。尽管 AI 在数字领域取得了巨大的进展,但物理世界的智能化仍然面临诸多挑战。机器人需要在三维空间中感知、操作物体,理解物理规则,这会耗费大量的人力和物力。

从大语言模型(LLM)到智能体(agent),人工智能(AI)技术正以前所未有的速度改变人类世界。尽管 AI 在数字领域取得了巨大的进展,但物理世界的智能化仍然面临诸多挑战。机器人需要在三维空间中感知、操作物体,理解物理规则,这会耗费大量的人力和物力。

近日,英伟达高级研究科学家、AI Agent 计划负责人 Jim Fan 在红杉资本 AI Ascent 2025 活动上,探讨了具身智能的未来趋势并提出了“物理图灵测试”(Physical Turing Test)的概念。

在演讲中,他通过简单场景揭示了具身智能背后的复杂性,并提出通过仿真驱动实现机器人在物理世界中的零样本迁移能力。在他看来,通过在虚拟环境中模拟物理世界,我们能够以更低的成本、更高的效率生成大量数据,从而训练出更智能的机器人。

最后,他探讨了物理 API 的潜力,认为物理 API 将开启一个全新的技术时代。届时,物理 AI 将成为现实。

学术头条在不改变原文大意的前提下,对演讲内容做了适当的精编和删减。如下:

假如你在周日晚上举办了一场黑客马拉松聚会,(一片狼藉的场景),你的伴侣对你大喊大叫。

你想:“星期一早上,我想叫人收拾这个烂摊子,然后给我做一顿丰盛的烛光晚餐,这样我的伴侣就能开心了。”

然后,你回到家看到了这样一幕:

经过整理后,你的房间一尘不染,并准备好了烛光晚餐,但你无法分辨这是人干的还是机器干的——这需要用物理图灵测试来区别。

然而,现阶段的物理交互能力还远远没有达到预期。比如,现有家用与工业机器人不够智能——机器人会被香蕉皮绊倒,器械手臂无法拿起麦片并准确倒出……

此外,收集真实机器人运动数据极其昂贵,且难以大规模扩展——研究人员经常戏称其为“比化石燃料还要贵的‘人力燃料’”,他们正在耗尽训练大语言模型(LLM)的数据。

那么,为什么物理图灵测试这么难?主要原因在于真实机器人数据难以获取。机器人的关节控制信号无法从网络上获取,必须通过一种非常复杂且昂贵的方法——远程操作(teleoperation)

你可以让人类戴上 VR 头盔,系统会识别你的手部姿势,并将其传输给机器人。通过这种方式,你可以教机器人做什么,比如从烤面包机里取出一片面包,然后在上面浇上蜂蜜。但这是一个非常缓慢且痛苦的过程。

如果你把它放在一个扩展图上看,基本上就是完全不可扩展的。

真实的机器人数据,就像是“人力燃料”,这比化石燃料还费劲,因为你在“燃烧”人类。更糟的是,每台机器人每天最多只能获得 24 小时的数据,然而实际上远远达不到这么多,因为人类会累,机器人比人类还容易“累”。

所以我们不能永远依赖这些“燃料”,我们必须离开物理世界,在模拟环境中做一些事情。

比如,训练一只机器手完成超人类的灵巧任务——在模拟环境中旋转钢笔,我们有两种想法:

第一,你必须以比现实快一万倍的速度进行模拟,也就是说,要让一块 GPU 同时运行一万个物理模拟环境。

第二,这一万个环境不能完全一样。你需要在重力、摩擦力、重量等参数上进行变化,这种方式我们称为“领域随机化”(domain randomization)。

为什么这种模拟可以起作用?想象一个神经网络能够控制机器人去解决一百万种不同的世界中的问题。那么它很有可能也能够解决第一百万零一个世界的问题——也就是我们的现实世界。换句话说,我们的现实世界其实就在这个训练分布中。

我们该如何应用呢?可以先建立一个“数字孪生”(digital twin)——也就是现实世界中机器人和环境的一比一复制版,在模拟中进行训练。然后把训练结果直接迁移到真实世界中,可以实现零样本迁移。

比如我们训练过机器手,现在我们还训练了机器狗——让一只机器狗站在瑜伽球上保持平衡。

接下来,我们可以把它应用到更复杂的机器人上,比如人形机器人。这些人形机器人只用了两个小时的模拟时间,就完成了十年的训练,学会了行走。你可以将这个结果迁移到真实机器人上,不管机器人是什么样子。只要你有它的模型,就能用模拟训练它走路。

我们还能做到更多。像人类控制自己的身体一样,机器人也能跟踪任何姿态、关键点或速度矢量。这叫做人形机器人的“全身控制”问题,是一个非常困难的任务,但我们可以用一万个并行模拟环境进行训练。同样可以实现零样本迁移,不需要微调。

在英伟达实验室,我们让机器人模仿人类在平衡站立时的敏捷动作。完成这一切的神经网络有多大呢?其实只有 150 万个参数,并不是十亿级别的,150 万个参数已经足以捕捉人类身体潜意识的反应和系统级的推理能力了。

如果把这个放在“模拟速度-多样性”的图上,这属于“模拟 1.0”阶段。它基于传统的矢量化物理引擎,速度可以从每秒 1 万帧到 100 万帧。但前提是你得手动构建整个数字孪生系统:机器人、环境、所有细节——这个过程非常繁琐和人工化。

那么,我们能不能开始生成部分仿真内容呢?我们用一个 3D 生成模型生成了所有这些 3D 资产;所有的材质都来自 Stable Diffusion(或者你喜欢的任何扩散模型);所有的布局都是由 LLM 生成的 XML 文件。

我们将所有这些组合在一起,建立了一个名为 RoboCasta 的框架——这是一个大规模、可组合的日常任务仿真系统。除了机器人,这里的一切都是生成的。你可以组成不同的场景,但它仍然依赖于传统引擎来运行,但已经能完成很多任务了。

接下来,我们可以在人类示范的基础上再进一步,但这一次是在仿真中进行。

你可以在仿真中重放一段动作轨迹,并加上硬件加速的光线追踪,生成带有灯光效果的逼真场景。你甚至可以改变动作轨迹。比如你远程操作,把杯子从 A 位置移动到 B 位置,那么就不用再重新演示把它从 A 移到 C,只需要一次演示。将所有这些整合在一起:你只需要一次人类示范,通过环境生成扩展为 n 个场景,通过动作生成进一步扩展为 m × n 个动作样本。放心,这就是今天你唯一要做的数学题了——这就是我们“倍增数据”的方式。

什么仿真效果可以和真实情况“足够接近”?我们称这种范式为“数字表亲”(digital cousin)。

它不是“数字孪生”,但它抓住了正确的要点。这些仿真虽然运行得慢,但我们用了一个混合生成物理引擎,一部分由模型生成,剩下的交由传统图形引擎处理。比如你要模拟这样一个场景:有软体物体、有流体、有各种复杂细节。如果靠艺术家或图形工程师来手动制作,会非常耗时。

回顾一下图形学的发展:过去从左边这个图走到右边这个效果,用了30年。

而我们现在用视频生成模型,只花了一年,就能模拟出可变形的“面条”——这就是规模化和数据驱动流程的威力。

还记得我一开始放的视频吗?其实我骗了你——那里面没有一个像素是真的,全部由一个定制模型生成。我们拿了一个开源的、通用的视频生成模型,并在我们机器人实验室收集的数据上进行了微调。所以这些画面都是生成的。你现在甚至可以用“提示词”让模型想象不同的未来情境,模拟“反事实”场景。

比如你看到两帧图像几乎一模一样,但加了不同的语言描述,生成的视频就会按照语言的引导正确地“演”出来——哪怕这种动作根本没有发生过。视频扩散模型(vedio diffusion model)不关心场景的复杂程度,也不在乎有没有流体、软体等物理细节。在同一个场景中,你可以让它拿起不同的物体,它会用正确的手抓起来,并放进篮子里。这些全是生成的,连反光都能做得很对。

从整体看,这就是“仿真2.0”阶段:虽然速度慢,但多样性极强。我把它叫做“数字游民”(digital nomad),在视频扩散模型的梦境空间里游荡。

什么是视频扩散模型?它是将数亿个互联网上的视频压缩成的一个“多元宇宙仿真器”。就像奇异博士那样,你可以在梦境空间中“实例化”出机器人,它就能和所有东西进行互动。

我们进入了一个具身 scaling law 时代。需要强大的算力来放大传统仿真系统——这就是 Sim 1.x 的系列。

但问题是,当你扩展时,它会遇到瓶颈,因为手工构建的系统多样性有限。而神经世界模型(neural world models),也就是 Sim 2.0,它会随着计算资源呈指数级增长。这正是神经网络超越传统图形引擎的转折点。这两个系统结合起来,将成为我们构建下一代机器人系统的“核动力”。

总结一下:你买得越多,说得越多,省得也越多。

一开始有人说“计算能力只会越来越强”,但现在,请把这张图刻在脑海里,重新想一想。

你把所有这些数据输入到一个我们称之为“视觉-语言-动作模型”的系统里: 它接收像素图像和文字指令,输出的是电机控制信号。我们在三月的 GTC 大会上开源了这个模型,名为 Groot N1,并已经部署在机器人上运行。

它甚至能做一些很“浪漫”的事情——我们在训练过程中做了大量清洁工作。它可以完美地抓起香槟杯。也能完成工业任务,比如抓取工厂物品,还能进行多机器人协作。Groot N1 是完全开源的,未来的模型也将继续开源,因为我们遵循黄仁勋的理念:开源并推动物理 AI 的普及化

实现物理 AI(Physical AI)之后,下一步就是“物理API”(Physical API)。

在人类五千年的历史中,我们拥有了更好的工具和更复杂的社会结构,但做饭、体力劳动的方式,从古埃及时代到现在,几乎没什么本质变化。

然而,在人类历史的最后 1%——也就是过去的 50 年里,人工劳动显著减少。我们开始使用一些专业化、复杂的机器人系统来完成单一任务。这些系统虽然昂贵、难以编程,但它们已经逐步融入我们的社会。

未来,我们要构建“物理 API”,就像 LLM API 可以操作比特流(bits),物理 API 将能操作现实中的原子(atoms)。你可以赋予软件一个物理执行器,让它真正“动手”改变现实世界。

基于物理API,我们将迎来一套全新的经济模式与技术范式:物理提示(Physical Prompting)。

仅仅依靠语言是不够的,未来可能会出现“物理版 App Store”和“技能经济”。比如说,大厨不需要每天亲自下厨房,只需要教会机器人,就可以把米其林级别的晚餐当成一种服务来提供。我引用黄仁勋的一句话:“凡是可以动的东西,最终都会实现自主化。”

想象一个不远的将来:

你下班回到家,沙发整洁干净,餐桌上是烛光晚餐,而你的伴侣正微笑着等你,而不是抱怨没人洗衣服。这个画面,是我每天的动力来源。也许你上个月刚买了两台搭载 Groot N7 的人形机器人,它们默默地运行着,在你家中成为“环境智能”的一部分。你甚至不会注意到,我们什么时候通过了“物理图灵测试”,而那一天,对你来说,也不过是平凡的星期二。

Keynote 链接:

https://www.youtube.com/watch?v=_2NijXqBESI&ab_channel=SequoiaCapital

整理:锦鲤

来源:人工智能学家

相关推荐