摘要:加州大学伯克利分校电气工程与计算机科学系教授 ,以及该校机器学习实验室的负责人、人工智能研究实验室(BAIR)联合主任,曾任OpenAI研究科学家。
人物简介 / Pieter Abbeel——
在当今一线AI企业的知名创始人中,有至少12位是他的学生。
在近期举办的GTC上,Pieter Abbeel进行了一场关于「机器人训练数据」的主题演讲,RoboX对其内容进行了编译整理,在此分享:
现在,随着硬件的不断进步,机器人所缺少的就是「大脑」,而大脑的关键驱动力就是AI。对于大多数人来说,当看见诸如「ChatGPT通过MBA考试」之类的消息时,能感受到「人工智能似乎真的起作用了」。
那么,在此背后,基于Transformer的大型语言模型(LLM)的秘诀是什么呢——在该模型中,输入是一系列的tokens,输出是对下一个token的预测。
这种方法之所以有效,是因为基于海量的互联网数据,能够训练出非常庞大的神经网络。
这些数据中有一些经过了有效筛选,同时又有大量的算力来支持训练,也就形成了有效的方法。
那么,人形机器人呢?我们能用哪些数据来训练它们?
几条难走的数据道路
Abbeel指出,目前世界上还没有真正的人形机器人,也就没有大量的行为数据。
找到有效的数据源,是机器人学中的一大挑战,也是一大机遇。
据其介绍,其中一个天然的数据源,就是「远程操作」——这样可以直接获取关节角度、操作力度等数据。在很多方面,这类似于大语言模型的数据获取方式,即直接获取与目标任务相匹配的数据。
但远程操作是非常耗时和昂贵的。它不像LLM拥有互联网上的海量数据,这种方式采集到的数据量仍然很小。
还有人提出,只需要在视频中追踪人类的手部动作就好了。毕竟,手部动作在物理世界产生了关键性的影响。
但Abbeel认为,好的计算机视觉技术确实可以追踪手部运动,但这些视频并不能完全符合需求。
还有一种方式,是通过大规模仿真来获取数据,这样也能够确切地知道机器人在做什么。但仿真并不总是与现实完全吻合,因为这无法将所有有趣的现实世界元素及场景,融入到模拟器中。
那么,为什么不直接让机器人在现实世界中学习呢?尽管这种方法原则上是可以的,但如何在现实世界中,让机器人安全地进行强化学习、试错学习?要在哪里设置它们呢?这些都还无法实现。
或许也有人打算采用更「随意」的方式——只使用互联网视频,进行下一帧、下一个token的预测,并通过这种方式了解世界。但这样还是无法接触到实际的行为,也无法了解机器人如何通过手、脚、手臂等身体部位来影响世界。
“在某种程度上,我们面临的是一堆杂乱无章的事物,但从研究的角度来看,这令人兴奋。如何将这些不同类型的数据结合起来,以满足训练需求呢?这里有一种正在尝试的整合方法(仍然属于研究阶段)。”
Abbeel表示,互联网数据可以用于构建背景知识,包括世界的运作、以及人类交流的方式。但实际上,我们需要的是一个能在物理世界中完成各种任务的机器人。
“所以,在仿真环境和真实环境中,我会对机器人进行一些强化学习,以了解它是如何与物体进行交互的。”
最后,还需要让人类参与其中,例如进行远程操作,或者对机器人的行为提供反馈。就像在RLHF(具有人类反馈的强化学习)的语言模型中看到的那样,对机器人的行为给予好、坏、更好、更坏的反馈。这样,机器人就能了解到你不希望它做什么。
不过,这样的方式非常复杂。这不仅仅是下载数据、运行训练方案那么简单。这是一个复杂的「拼图游戏」,由许多碎片组成,每个碎片都有其自身的挑战。
“即使今天这些不同的组件还没有完全整合在一起,但它们都在取得巨大的进步,而且是以非常有趣的方式取得的。”
Abbeel此时展示了一张幻灯片——数据金字塔。
金字塔的基础是网络数据,然后是合成、仿真数据,而顶端则是现实世界的数据,可能需要人类参与收集。
与语言模型相比,目前在机器人领域的高信号数据(即易于扩展的数据)方面,尚未达成共识。同时,如何最佳地组合数据源,也没有达成一致。
但是,许多令人兴奋的研究成果已经开始涌现。比如,人们可能不再需要1000万美元的预算来训练LLM,而只需要一个GPU就能做出惊人的成果。
遥操方法的最新进展
Abbeel指出,如果直接采用远程操作,那么获取符合需求数据的最直接方法就是:输入摄像头捕捉的画面,打印出机器人的关节角度,然后输出下一个关节角度。如果有遥控操作设置,则可以长时间收集此类数据。
“我自己和许多人都认为,大规模实现这种数据集是完全不可能的。然而,斯坦福大学的切尔西·芬恩团队(Chelsea Finn)证明,只要设置得当,也可以非常快速地收集数据。虽然这些数据还未达到互联网规模,但收集速度显著加快。”
Abbeel介绍称,在这个案例中是第二代Mobile ALOHA(一个低成本的机器人和远程操作系统)。通过该系统,可以对机器人进行远程操作,然后再用得到的数据训练一个神经网络,自主执行任务。
现在,Chelsea Finn、Sergio Levine、Carol Haussman和其他一些人创办了一家公司——PI(Physical Intelligence),他们在这项研究的基础上,展示了当在资源更多的企业中扩大规模时,可以获得更好的结果——他们成功地建立了大规模的数据收集系统。
Abbeel展示了一个PI机器人整理衣物的视频:“这里应该注意的是机器人自我纠错的行为——这显然不是一次按照脚本进行的衣物折叠过程,而是通过神经网络控制完成的任务。它学会了如何应对大量变化,以及当计划出现微小偏差时,如何进行纠正。”
Abbeel指出,尽管该方案还没有100%成功,也不算是「发展得超级顺畅」,但ALOHA和PI已经取得了很多进展。
实际上,经过加州大学圣地亚哥分校(UCSD)的王小龙教授团队,与麻省理工学院(MIT)研究人员的合作,已经证明可以使用Apple Vision Pro从MIT进行遥控操作,这是另一种技术的融合——它可以跟踪手部动作。
MIT的手部动作由Apple Vision Pro跟踪,并通过普通互联网发送。它只是普通的、快速的互联网,允许操作者远程控制这个机器人来完成一些非常有趣的任务。
当然,由于是远程控制,会存在一定的延时。因此,这需要更缓慢地操作,因为如果动作太快,就很难与机器人保持同步。
但是,通过遥操收集的数据,机器人已经可以完成一些非常有趣的事情。其中一个例子,是让机器人将小耳塞放入盒子中。这再次展示了在当前机器人硬件和正确控制下,机器人可能具备的灵巧性。
在这个例子中,机器人是自主操作的,它是从演示中学习的。“我们完全可以追踪某人的全身动作,然后学习模仿它。”
让机器人多做「有趣」的事
尽管对人形机器人很感兴趣,但Abbeel还是认为,不应低估四足机器人未来的普及程度。因为四足机器人更容易操作,且不易摔倒,更加稳定。
而且,四足机器人也可以装上手臂,而不仅仅局限于四条腿。
Abbeel展示了一段视频——在王小龙教授的家里,装有手臂的四足机器人可以自主打扫孩子的玩具房。
从另一方面来看,既然人类每天都在用手进行烹饪、打扫、整理、建造等各种各样的事情。为什么不直接记录下来呢?
卡内基梅隆大学的Deepak Pathak正在进行类似的研究工作,这里的关键思想是,如果让神经网络观看人类动作的视频,那么或许应该利用在训练神经网络权重时使用的损失函数,来鼓励、优化神经网络。
“我们应该鼓励神经网络学习预测双手将与世界互动的位置——当双手悬在空中时,具体发生了什么可能并不重要,但它们将如何与世界互动,是需要关注的点。”
通过这样的方法,机器人以后在被要求完成任务时,就不必从头开始学习了,因为它已经对物理世界的交互有了认知。例如,它会知道门把手、抽屉把手是它应该首先操作打开的位置。这样做的好处是,它教会了机器人一些先验知识——哪些东西是「有趣的」。
“如果你从头开始对机器人运行强化学习,你会发现机器人之所以需要学很长时间,是因为它们忙于做很多‘无趣’的事情。现在通过神经网络的损失函数,机器人可以学习了解这个世界上哪些部分是有趣的。”
没有「眼睛」也能自主行走
目前,Abbeel在伯克利的一些同事,在Locomotion方面取得了一些成果。他们收集了大量关于行走的数据集,这些数据来自于神经网络控制下的仿真机器人动作。
其中包括了机器人的所有关节角度、对这些关节施加的指令、机器人的质心,以及其姿态。“这是第一个完整的数据集,包括了发送给机器人的动作指令。”
Abbeel指出,在某些数据集中,动作被忽略了,通常只是机器人状态的一系列序列,再加上人类的数据作为参照,包括互联网上的低质量视频。
“我们现在得到的,是一个看起来更像大语言模型的训练集。对于后三个数据集(见上图),其实都是状态序列;而对于第一个数据集,状态和动作是交替的。我们在这个数据集上训练了一个大型的Transformer模型,来学习预测下一个token,由此可以给出非常好的基线行走控制器。然后我们运行了一些额外的强化学习,它除了预测token,还能进行Reward反馈优化,而非仅仅优化现有数据中的下一个token。”
伯克利的团队在更崎岖的地形上进行这种训练,然后在现实世界中测试。目前,该系统已完成了超过4英里的现实徒步。
在自主性上,这个机器人实际上是在没有摄像头输入的状态下,实现多种地形的行走。它只是知道自己的身体姿态,并能有效地感知脚下发生的情况。
不过,同时也会有人使用操纵杆,来控制机器人的移动方向。所以,高层次的导航是由人来指示方向的,但所有低层次的控制都是自主的。
“我觉得很有趣的是,即使没有‘眼睛’,这个机器人也能有效地跨过这些障碍。即使旧金山的坡度很陡,它也能上坡下坡。”
另一个Abbeel团队正在研究的课题,是「如何让机器人跑得更快」。
目前,人类跑完100米大概需要十几秒,而机器人需要20几秒。而伯克利团队通过强化学习训练控制器,试图将机器人速度最大化。
现场展示的机器人没有上半身,它是Digit机器人的早期版本之一(Agility的机器人)。可以看到,该机器人能以非常自然的方式运动。可以快速跑完100米,同样的强化学习也让它学会了跳跃。
“跳跃其实更难,因为这需要落地时保持稳定,也需要在后续做大量踉跄动作来弥补落地的不协调。使用类似的技术,也可以训练一个四足机器人,成为足球守门员。”
从视频来看,「守门员」机器人通过摄像头捕捉足球,并且快速反应,跳跃、扑救,或者阻挡足球。
价格很快就会下降
Abbeel表示,伯克利以非常低的预算建造机器人,也能够做很多事情,拥有非常动态的技能。
“机器人的价格真的会下降,而且很快就会达到一个阶段,即硬件的价格将不再是利用这些机器人的障碍。”
对于近期很火的「宇树G1打功夫」的视频,Abbeel表示,“我不知道他们具体是怎么做到这一点的,但很可能是先对人类的相同动作进行了动捕,然后重新定位到机器人可以执行的动作上。考虑到机器人的物理限制,这需要在模拟环境中运行强化学习,学习执行这些动作,最后再转移到真实世界的机器人上得以执行。”
虚拟与现实的融合
很多人形机器人的全身控制都依赖于仿真,事实证明,仿真数据的质量非常高。这是因为足式机器人与世界的接触的点,主要集中在脚部,只需关注这部分的训练即可。
但在上肢操作中,会面临更多细节上的问题,例如物体可能变形、破裂,以及很多随机事件。
那么,接下来的重要问题,是如何将更多现实世界的信息融入仿真器中。
这也是Abbeel的一名学生Arthur在做的一个项目。他们认为,在收集人类行为的视频时,可以不仅进行动作捕捉,还要捕捉周围环境。
在一个案例中,将楼梯融入到仿真环境中,然后通过强化学习,在模拟中执行那些复杂的动作,并希望最终能将其应用到现实中,这将是下一步的工作。
”关键在于,我们正变得越来越擅长将重要的事物融入仿真中。类似NeRF和高斯泼溅这样的技术,它们可以让神经网络真正理解世界的三维结构。“
同样的,也可以通过这种方式将世界的三维信息融入机器人的仿真器中,并开始在更复杂的环境中进行训练。
令人兴奋的Body Transformer
“我们最近完成了一项让我非常兴奋的工作,那就是Body Transformer。如今,Transformer是每一个大语言模型背后的技术,也是众多强大的AI模型(涵盖视觉、语言、语音、机器人等领域)背后的技术。那么,我们能不能让它更贴近机器人身体的结构,而不仅仅是一个通用的transformer?”
Abbeel指出,如果观察人类和动物,会发现它们之间存在一种空间连接性。比如,当人类感受到指尖被灼烧时,反应路径并不一定要一路传递到大脑,而是存在一条更短的路径,这条短路径能让人们快速做出反应。
这样构建机器人身体,会更加容易,因为这样能同时具备处理事情的短路径和长路径。这实际上是一种归纳偏置(inductive bias),也就是对模型进行偏好选择的先验假设或限制),也许会是一种更快的学习方式。
这种局部性,反而可能实现更快地学习。
比起单一的神经网络,现在Abbeel团队对模块化架构更感兴趣。在该方法中,Transformer中的连接不是全连接的,而是局部连接的,这样可以更有效地查看机器人的骨架,并利用它作为归纳偏置,使模型更加高效。
同时,由于采用了局部连接,当应用Attention时,就能够实现多频率推理,并在强化学习时提供了局部化的信用分配。
他介绍称,强化学习中的一个常见挑战是,当机器人完成一个任务,庞大的黑箱Transformer无法告诉你具体原因。而Body Transformer可以分析出导致任务成功或失败的原因,而且可以具体到手和脚都做了什么。
基于机器人的局部性,本质上拥有了一个稀疏的注意力图,被称之为“遮蔽注意力机制” (Masked Attention)以区别于“全注意力机制” ( Full Attention)。
下图的灰色曲线表明,与遮蔽注意力相比,全注意力每次迭代需要更多的时间,计算成本也高得多。
而具有遮蔽注意力的Body Transformer提高了模仿学习的效率和可扩展性,并且在数据较少的情况下也能很好地工作。
在这个例子中,机器人只需要三次演示就能学会完成一项任务,这是一种很好的归纳偏置。我此外,它还有助于强化学习和向现实世界的迁移。
由此,只需要一块不错的GPU,人们甚至只需要家里就能训练机器人。
Abbeel称,要想让机器人取得进步,首先要确保为它设定了正确的目标。
“我们在仿真环境中设置了一系列任务,让人们可以在家里轻松训练,而且不需要自己的机器人。而针对机器人的移动问题,我们设置了一系列locomotion任务,包括各种复杂地形任务,还有一些局部操作任务,例如开门、厨房家务等等。”
他提到,许多人会问,为何不将机器人设计得更强,乃至超越物理极限?这是因为,这样的目标需要将机器人设计得很重,移动起来也很难。所以,更理想的状态是让它们既安全,又尽可能轻便,也就是让它在接近其物理极限的情况下工作,最大化其能力。
目前,上述系统已被整合到了人形机器人测试平台(humanoid bench)中,可通过谷歌搜索。它不仅包含了问题设置,还配备了触觉感知功能(目前大多数的机器人并不具备如此丰富的触觉感知能力)。
Abbeel指出,原先,传统算法在处理大规模动作空间时存在一定难度——虽然如果只控制身体,而不控制手,学习速度会快很多,但这样会欠缺全身控制的能力。
由此,可以采用分层的方法,将技能解耦,这是取得进展的一种方式。例如从一个伸手策略开始,使用强化学习来教机器人达到一个目标,然后你可以在此基础模型上学习做其他事情。
“虽然在我们的平台上,不是所有任务都能完成,但许多任务现在都已经取得了很大进展。”
在现实世界中进行训练既昂贵又不安全。而现在,并行视频正在与Google DeepMind合作的MuJoCo Playground上进行工作。MuJoCo Playground模拟了各种各样的任务,它是开源的,支持批量GPU渲染,只需一行代码即可安装。
”通常,当你安装一个包含很多你想要的功能的软件时,安装过程会很复杂,但MuJoCo Playground只需一行代码即可安装,并且可以在任何地方进行训练。当云端GPU不太忙时,你可以免费在云中使用它们并运行你的实验。“
Abbeel介绍称,仿真提供了安全和廉价的数据,成为简单基准测试的一部分。
对比来看,DeepMind Control Suite是一个长期的机器人控制测试环境,用于测试许多算法。它可以在仿真环境中运行各种机器人,并将其转移到现实世界中。
而MuJoCo Playground则会先定义任务,这通常意味着定义Reward,通常是多个Reward,以告诉系统真正想要什么,然后开始训练模拟。它通常使用PPO(Proximal Policy Optimization,近端策略优化)算法,并根据需要调整奖励。
如果没有得到想要的结果,可以逐步构建更困难的任务,然后添加域随机化,这意味着在你的仿真中添加一点随机性。
在演讲最后,Abbeel及其学生展示了一个基于MuJoCo Playground训练的机器人,它即便在有人拉动遥控手柄干扰时,也能向前、向后或侧向行走,并且能在出现错误时进行恢复。
Abbeel总结称,目前行业对于「如何建设机器人的AI大脑」还未达成共识,但已经取得了一些巨大进展。
来源:RoboX