摘要:2025年2月5日,来自德国慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队在国际顶级期刊《Nature Machine Intelligence》上发表了一项突破性研究——“Preserving and Combining Knowledge in R
2025年2月5日,来自德国慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队在国际顶级期刊《Nature Machine Intelligence》上发表了一项突破性研究——“Preserving and Combining Knowledge in Robotic Lifelong Reinforcement Learning”。该研究提出了一种名为LEGION的机器人终身强化学习框架,成功解决了机器人在持续学习过程中如何保留和组合知识的难题,为机器人实现类人智能迈出了重要一步。
这项研究不仅展示了机器人在复杂任务中的出色表现,还通过结合语言嵌入和非参数贝叶斯模型,显著提升了机器人的任务理解和执行能力。研究团队通过实验验证了LEGION框架在真实世界中的广泛应用潜力,特别是在长时程任务中的表现尤为突出。论文作者包括来自德国慕尼黑工业大学的孟远,邴振山,姚相同,和Alois Knoll教授;中山大学数据科学与计算机学院的黄凯教授,南京大学计算机软件新技术全国重点实验室,南京大学(苏州)智能科学与技术学院的高阳教授;以及清华大学计算机科学与技术系的孙富春教授。邴振山博士同时隶属于南京大学计算机软件新技术全国重点实验室与南京大学(苏州)智能科学与技术学院。
▍为什么研究机器人终身学习?
人类具有终身学习的能力,能够不断积累知识并适应新的任务场景,这种能力被认为是实现通用智能的关键机制。然而,当前基于深度强化学习的人工智能系统虽然在特定任务上表现出色,但在面对持续的任务流时,往往会出现“灾难性遗忘”问题,即当智能体学习新任务时,神经网络的参数会被新数据覆盖,导致其遗忘先前学到的技能。因此,传统机器人强化学习模型很难像人类一样保持已有知识,并在此基础上进行拓展。传统的多任务学习方法虽然可以在一定程度上缓解这一问题,但它们通常要求机器人在训练时同时访问所有预先定义好的任务分布,这与人类的实际学习过程相去甚远。这种局限性严重阻碍了机器人在复杂环境中的应用。
为了解决这一难题,研究团队提出了一种全新的机器人终身强化学习框架——LEGION(Language Embedding-based Generative Incremental Off-policy Reinforcement Learning Framework with Non-parametric Bayes)。该框架通过结合贝叶斯非参数模型和语言嵌入技术,使机器人能够在持续的任务流中不断积累知识,并且能够通过结合和重新应用已掌握的知识,解决复杂的长期任务。
图表1 机器人终身强化学习过程的概念示意图。a. 展示了终身强化学习过程的总体概念。与传统的多任务学习方法不同,终身强化学习代理可以依次掌握任务流中的每一个任务,并在整个过程中持续积累知识。这一概念模拟了人类的学习过程。b. 展示了我们提出的终身学习框架。我们通过语言指令指导部署的机器人执行长时程任务。机器人通过组合和再应用已获得的知识来完成这些任务。
▍LEGION框架的核心创新
贝叶斯非参数知识空间
LEGION框架的核心创新之一是其基于Dirichlet过程混合模型(DPMM)的知识空间。与传统的参数化模型不同,DPMM能够根据任务流中的新数据动态调整模型的复杂度,自动生成新的知识组件来存储新任务的信息。这种非参数化的设计使得机器人能够在面对未知数量的任务时,灵活地扩展其知识空间,避免遗忘之前掌握的知识。
语言嵌入增强任务理解
为了进一步提升机器人对任务的理解能力,LEGION框架还引入了语言嵌入技术。通过预训练的大型语言模型(LLM),机器人能够将自然语言描述的任务指令转化为语义嵌入,从而更好地理解任务的上下文信息。这种语言嵌入不仅帮助机器人更准确地推断当前任务,还为其提供了更丰富的语义信息,使其能够在面对复杂任务时做出更智能的决策。
知识组合与重新应用
LEGION框架的另一个重要特点是其能够通过知识组合与重新应用,解决复杂的长期任务。例如,在“清理桌子”这一长期任务中,机器人需要依次完成“推杯子”、“打开抽屉”、“按下按钮”等多个子任务。通过结合和重新应用之前掌握的知识,LEGION框架能够灵活地调整任务的执行顺序,高效地完成复杂的长期任务。
▍实验结果:具身智能的终身学习能力
研究团队通过一系列实验验证了LEGION框架的有效性。实验涵盖了从终身学习的单任务表现到复杂的长时程任务组合,展示了机器人在真实世界中的广泛应用潜力。
长时程任务的表现
研究团队利用KUKA iiwa 机械臂测试了该框架的有效性。在长时程任务实验中,机器人需要完成一系列复杂的子任务,例如“清理桌子”或“制作咖啡”。这些任务要求机器人能够灵活组合之前从终身强化学习任务中学到的知识,并按照顺序执行。视频1展示了机器人在完成“清理桌子”任务时的表现。通过组合和再应用之前学到的知识,机器人成功完成了所有子任务,展示了其在复杂任务中的出色表现。
这种知识组合方式不仅具有极高的灵活性和泛化能力,还突破了传统模仿学习的局限。与依赖预定义任务顺序的传统行为克隆方法不同,LEGION框架允许机器人在完成长时程任务时,自由编排和组合已学到的技能。视频2展示了机器人在执行“清理桌子”任务时的自由技能组合演示,充分体现了其在复杂任务中的灵活应变能力。
终身强化学习的表现
此外,研究人员评估了LEGION架构在终身学习过程中单一任务的表现。研究人员设定了多个机器人操作任务,如按下按钮、推动瓶子、打开水龙头、关上抽屉等(如图 2)。机器人在训练过程中不会遗忘之前学过的任务,而是逐步累积经验,并在需要时调取相关技能来执行更复杂的任务。更重要的是,当机器人面对长期任务(如“清理桌面”)时,它可以灵活调用已学任务技能(例如按下按钮+推动瓶子)来完成整个任务,而不需要人类提供额外的示范。这种能力在现实应用中极具价值,例如家庭服务机器人或自动化工业机器人可以根据环境需求执行新的任务,而无需反复训练。其实机表现在视频3中展示。
图表2 终身强化学习后机器人在真实世界中的单任务表现。展示了机器人在完成各个操作任务时的快照。
知识保留与遗忘
为了评估LEGION框架在知识保留方面的表现,研究团队通过t-SNE可视化和统计分析,展示了知识空间的变化。图3展示了机器人在学习不同任务后,知识空间的聚类情况。可以看到,随着任务数量的增加,知识空间能够动态调整,确保新知识的有效保留。此外,实验还表明,LEGION框架在多次学习循环中,能够快速回忆起之前学到的知识,展示了其在少样本学习中的强大能力。
图表3 知识空间的t-SNE快照。a-e. 展示了机器人在学习了两个任务(a)、四个任务(b)、六个任务(c)、八个任务(d)和所有十个任务(e)后,知识空间的t-SNE投影。f. 展示了第一次训练循环(圆圈)和第二次训练循环(十字)后的t-SNE投影。值得注意的是,第二次训练循环的推理结果被合并到第一次循环中保留的相应知识组中。
少样本记忆再激活
在少样本知识回忆实验中,研究团队展示了LEGION框架在间歇性回放情况下的表现。图4展示了机器人在多次学习循环中的表现。可以看到,即使在长时间暂停后,机器人仍能快速回忆起之前学到的知识,并在后续任务中表现出更高的成功率。这一结果与生物学中的记忆巩固理论相吻合,进一步验证了LEGION框架的有效性。
图表4 回放对知识回忆的贡献评估。a. 展示了LEGION框架与三种基于回放的终身学习方法的平均成功率对比。图中显示,LEGION框架在整个任务序列中始终优于其他方法,展示了其成功率的稳步提升。b. 展示了“推”任务数据在训练批次中的演变情况。虽然批次大小保持不变,但随着学习任务的增加,“推”任务的数据比例逐渐从最初的50%下降到10%。c-g. 展示了在“到达”(c)、“推”(d)、“水龙头打开”(e)、“按钮按下”(f)和“关窗户”(g)任务中的少样本知识回忆表现。机器人在三个重复循环中依次训练五个选定任务,缓冲区容量限制为每次三个任务。
▍训练与部署
图5展示了LEGION框架的详细训练和部署过程。在方针训练阶段:LEGION框架接收语言语义信息和环境观察作为输入,生成策略决策并输出动作模式。与传统的多任务学习方法不同,LEGION每次只训练一个任务,确保知识能够逐步积累。在现实物理世界真机部署阶段:在真实世界的演示中,代理参数保持不变,机器人从真实世界硬件接收输入信号并输出相应的动作信号。为了确保仿真与真实世界之间的无缝衔接,框架还引入了“Sim2Real”和“Real2Sim”模块,用于处理数据转换和校准。
通过这种分阶段的训练和部署,LEGION框架不仅能够在仿真环境中高效学习,还能在真实世界中灵活应用所学知识,展示了其在复杂任务中的强大适应能力。针对架构的具体介绍详见视频4。
图表5 LEGION框架的训练和部署概述。a. 训练阶段。框架接收语言语义信息和环境观察作为输入,生成策略决策并输出动作模式。它每次只训练一个任务。b. 部署阶段。在真实世界的演示中,代理参数保持不变,代理从真实世界硬件接收输入信号并输出相应的动作信号。“Sim2Real”和“Real2Sim”模块处理数据以弥合仿真和真实世界之间的差距。
▍未来展望:迈向通用智能
LEGION框架的成功不仅展示了机器人在终身学习中的潜力,还为未来智能机器人的发展提供了新的方向。研究团队表示,未来将进一步优化框架,探索在无回放缓冲区的情况下实现更稳定的学习,并尝试在零样本推理等更具挑战性的场景中应用该框架。此外,研究团队还计划将LEGION框架扩展到非结构化、动态环境中,以提升机器人在复杂场景中的泛化能力和鲁棒性。通过结合语言模型和持续学习技术,LEGION框架有望在未来实现更广泛的智能应用,推动机器人技术的进一步发展。
▍结论
LEGION框架的提出,标志着机器人终身学习领域的重要突破。通过结合非参数贝叶斯知识空间和语言嵌入,LEGION不仅解决了机器人在持续学习中的知识保留问题,还展示了其在复杂任务中的出色表现。这一框架的成功,为未来智能机器人的广泛应用奠定了坚实基础,也为实现通用智能迈出了重要一步。
论文链接:
来源:机器人大讲堂