摘要:教会机器人在陌生环境中自主导航,向来是一项棘手且复杂的任务。以往,我们依赖于人类录制的真实世界数据来训练这些机器人,但这种方法不仅数据稀缺,而且收集成本高昂。相对而言,数字模拟虽然是一种快速且可扩展的训练方式,但机器人常常在从虚拟环境转移到现实世界后难以重现其
教会机器人在陌生环境中自主导航,向来是一项棘手且复杂的任务。以往,我们依赖于人类录制的真实世界数据来训练这些机器人,但这种方法不仅数据稀缺,而且收集成本高昂。相对而言,数字模拟虽然是一种快速且可扩展的训练方式,但机器人常常在从虚拟环境转移到现实世界后难以重现其在虚拟世界中的表现。
如今,一种全新的解决方案正悄然崭露头角:结合生成式AI模型与物理模拟器,打造一个更为贴近真实物理世界的虚拟训练场。通过这种方法训练的机器人,在现实世界的测试中展现出了比传统技术训练的机器人更高的成功率。这一创新性的系统被命名为LucidSim,并在上周的机器人学习会议(Conference on Robot Learning, CoRL)上得到了详尽的阐述。
“我们正站在机器人领域的工业革命门槛上,”MIT计算机科学与人工智能实验室(MIT CSAIL)的博士后研究员Ge Yang感慨道,他正是这一项目的核心参与者。“我们试图深入理解这些生成式AI模型在其原始设计之外所能发挥的作用,并期待它们能引领我们走向下一代工具和模型。”
LucidSim系统的核心在于利用生成式AI模型的组合来创造视觉训练数据。研究团队首先为ChatGPT生成了数千个描述性的提示,这些提示涵盖了机器人可能在现实世界中遇到的各种环境,包括不同的天气、时间和光照条件。例如,“一条古老的小巷,两旁是古色古香的茶馆和精致的小店,每家店铺都展示着传统饰品和书法作品”,“一片阳光照耀的草坪,略显杂乱,上面点缀着干枯的斑点”。
这些生动的描述随后被输入到一个先进的系统中,该系统能够将3D几何和物理数据映射到AI生成的图像上,从而生成一系列短视频,为机器人提供导航轨迹的参考。这些信息对机器人至关重要,因为它们需要计算导航过程中可能遇到的物体的高度、宽度和深度,比如箱子或楼梯。
为了验证LucidSim系统的性能,研究团队让一只配备摄像头的四足机器人在多个任务中进行了测试,包括寻找交通锥或足球、爬过箱子以及上下楼梯。结果表明,与使用传统模拟系统相比,机器人在LucidSim系统下的表现明显更为出色。在20次寻找交通锥的测试中,LucidSim系统实现了100%的成功率,而传统模拟系统的成功率仅为70%。在另一组20次寻找足球的测试中,LucidSim系统的成功率为85%,而传统系统仅为35%。最后,在楼梯攀爬测试中,机器人在LucidSim系统的辅助下成功完成了所有10次测试,而传统系统的成功率仅为50%。
MIT的副教授Phillip Isola也参与了这项研究,他展望道:“如果LucidSim能够直接利用先进的生成式视频模型,而不是现在这种将语言、图像和物理模型拼接在一起的方式,那么未来的结果可能会更加令人振奋。”
纽约大学的博士生Mahi Shafiullah虽然未参与此项目,但他对研究团队采用生成式AI的方式表示了赞赏,认为这为更多有趣的新研究铺平了道路。他补充道:“在我看来,一个更有趣的方向是结合真实数据和逼真的‘想象’数据,这有助于我们现有的依赖数据的方法更快、更好地扩展。”
华为的资深研究科学家Zafeirios Fountas则专注于脑启发式AI的研究。他指出,能够完全基于AI生成的情境和场景从零开始训练机器人是一个重要成就,其影响可能不仅限于机器人领域,还能扩展到更广泛的通用AI智能体。
“这里所说的‘机器人’是一个广义的概念,我们谈论的是任何与现实世界交互的AI。”Fountas解释道,“我可以想象这一技术被用于控制各种视觉信息,从机器人和自动驾驶汽车到电脑屏幕或智能手机的操作。”
关于下一步的研究计划,作者们表示将尝试使用完全合成的数据来训练人形机器人。他们承认这是一个雄心勃勃的目标,因为双足机器人通常比四足机器人更不稳定。此外,他们还将目光投向了另一个新的挑战:利用LucidSim系统来训练用于工厂和厨房的机器人手臂。这些任务需要更高的灵活性和物理理解能力,比简单的场景奔跑要复杂得多。
“例如,实际拿起一杯咖啡并将其倒出,这是一个非常困难且尚未解决的开放性问题。”Isola坦言,“如果我们能够利用生成式AI增强的模拟来创造大量的多样性,并训练出一个能够在咖啡馆中熟练操作的非常强大的智能体,那将是非常令人激动的。”
随着技术的不断进步和应用的深入拓展,LucidSim系统有望为机器人领域带来革命性的变革。它不仅提高了机器人在虚拟环境中的训练效率,还为机器人从虚拟到现实的平稳过渡提供了强有力的支持。未来,我们可以期待看到更多在LucidSim系统下训练的机器人,在现实世界中展现出卓越的性能和无限的潜力。
华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。
来源:华远系统一点号