摘要:本周四,一大批大学和私营企业的研究人员发布了Genesis,这是一个新的开源计算机模拟系统,可让机器人在模拟现实中练习任务,速度比现实世界快 43 万倍。 研究人员还可以使用人工智能代理根据文本提示生成三维物理模拟。
本周四,一大批大学和私营企业的研究人员发布了Genesis,这是一个新的开源计算机模拟系统,可让机器人在模拟现实中练习任务,速度比现实世界快 43 万倍。 研究人员还可以使用人工智能代理根据文本提示生成三维物理模拟。
使用 Genesis 平台创建的模拟茶壶和字块
加速模拟意味着,只需几个小时的真实计算机时间,用于驾驶机器人的神经网络就能在虚拟世界中学习拾取物体、行走或操作工具,相当于几十年的时间。
"一个小时的计算时间可以让机器人获得 10 年的训练经验。 这就是尼欧如何在《黑客帝国》的道场中眨眼间学会武术的。"《创世纪》论文的合著者吉姆-范(Jim Fan)在《X》上写道,他说自己在这项研究中只是"小角色"。 范曾为 NVIDIA 参与过多个机器人仿真项目。
机器人研究人员正在寻找更好的工具来测试和训练机器人,然后再将其部署到现实世界中。 快速、准确的模拟可以帮助机器人更快地学习复杂的任务,同时减少对昂贵的物理测试的需求。
研究人员提供的由Genesis创建的基于物理的模拟世界的示例图片。 Credit: Zhou et al.
由卡内基梅隆大学周贤领导的小组开发的 Genesis 平台处理物理计算的速度比现有的机器人模拟器(如 NVIDIA 的Isaac Gym)快 80 倍。 它使用类似于视频游戏的显卡,可同时运行多达 10 万份模拟。 这对于训练控制未来真实世界机器人的神经网络非常重要。
"如果一个人工智能可以在 10 亿个不同的模拟中控制 1000 个机器人完成 100 万种技能,那么它在我们的现实世界中就可能'恰好奏效',而现实世界只不过是广阔的可能现实空间中的另一个点,"范在他的 X 帖子中写道。"这就是为什么模拟在机器人技术中如此有效的基本原理"。
生成动态世界
该团队还宣布了生成所谓"4D动态世界"的能力--之所以使用"4D",可能是因为它们可以模拟随时间运动的三维世界。该系统使用视觉语言模型(VLM),通过文本描述(类似于其他人工智能模型中的"提示")生成完整的虚拟环境,并利用 Genesis 自己的模拟基础 API 来创建世界。
据报道,人工智能生成的世界包括逼真的物理、摄像机运动和物体行为,所有这些都来自文本命令。 然后,该系统会生成物理上精确的光线跟踪视频和数据,供机器人用于训练。
Genesis根据文字提示创建的"4D 动态和物理"世界示例。
这种基于提示的系统可让研究人员通过键入自然语言命令来创建复杂的机器人测试环境,而无需手工编程。传统上,模拟器需要美工人员大量的手工劳动: 三维资产、纹理、场景布局等。 但工作流程中的每个组件都可以实现自动化。
利用其引擎,Genesis 还可以生成角色动作、交互式三维场景、面部动画等,这不仅可以为创意项目创建艺术资产,还可能在未来开发出更逼真的人工智能生成游戏和视频,在数据中构建一个模拟世界,而不是像视频合成扩散模型那样根据像素的统计外观进行操作。
Genesis中的角色动作生成示例,使用的提示包括:"一个手持棍棒的微型悟空在桌面上冲刺 3 秒钟,然后跳到空中,并在着陆时向下挥动右臂"。
虽然生成系统还不是 GitHub 上代码的一部分,但该团队计划在未来发布它。Genesis 仍在 GitHub 上积极开发,团队接受社区贡献。
该平台在用户界面和核心物理引擎上都使用了 Python,从而在其他用于机器人训练的 3D 世界模拟器中脱颖而出。 其他引擎使用 C++ 或 CUDA 进行底层计算,并用 Python API 进行封装。 Genesis 采用的是 Python 优先的方法。
值得注意的是,Genesis平台的非专有性使得任何研究人员都可以通过简单的Python命令免费获得高速机器人训练模拟,这些命令可以在使用现成硬件的普通计算机上运行。
以前,运行机器人仿真需要复杂的编程和专用硬件,范在他发布 Genesis 的文章中说,但现在不应该这样了。他写道:"机器人技术应该是全人类共同拥有的一项登月计划。"
来源:湖北台科技快报