清华大学具身智能万字综述!形态、行动、感知与学习的协同效应

B站影视 韩国电影 2025-03-24 20:47 2

摘要:单位:清华大学,北京邮电大学,曼彻斯特大学论文标题:Embodied Intelligence: A Synergy of Morphology, Action, Perception and Learning论文链接:https://dl.acm.org/d

作者:HUAPING LIU, DI GUO, ANGELO CANGELOSI单位:清华大学,北京邮电大学,曼彻斯特大学论文标题:Embodied Intelligence: A Synergy of Morphology, Action, Perception and Learning论文链接:https://dl.acm.org/doi/pdf/10.1145/3717059出版信息:ACM COMPUTING SURVEYS - 2025论文提出了统一的具身智能框架,强调形态、动作、感知和学习之间的协同作用。该框架不仅关注这些组件的独立性,更注重它们之间的相互联系。对现有的具身智能研究进行了全面的综述和分类,提供了一个系统化的视角来理解这些组件如何相互作用以生成智能行为。特别强调了形态、动作、感知和学习之间的连接性,这种跨组件的连接性分析有助于揭示具身智能系统的复杂性和潜力。回顾了具身智能的历史背景,并分析了从经典人工智能到现代机器学习技术的发展。通过这种历史与现代技术的结合,展示了具身智能领域的最新进展和挑战。定义与核心理念:具身智能是一种计算方法,用于设计和理解具身智能体(embodied agents)中的智能行为。这种方法通过考虑智能体与其环境的紧密耦合来实现,强调了智能体的身体、感知和运动系统以及大脑之间的约束。环境与智能的关系:具身智能强调智能是由大脑、身体和环境之间的紧密耦合所影响的。智能是通过信息感知和与环境的物理互动过程不断动态生成的。生物学验证:通过著名的“小猫实验”(kittens experiment),验证了视觉、发展和运动之间的关系。实验表明,主动移动的小猫能够发展出正常的感官-运动系统,而被动移动的小猫则表现出严重的感官-运动障碍。历史背景:论文提到,具身智能并不是一个新概念。早在20世纪50年代,艾伦·图灵就指出,构建智能机器的一种方法是赋予其感知世界的能力并让其自我发展。具身与离身智能的对比:论文区分了具身智能(EAI)和离身智能(disembodied intelligence)。具身智能强调身体的作用,尤其是其对智能行为的影响;而离身智能则更多地关注模拟大脑活动以实现决策和行动。问题与挑战:尽管大数据、深度学习和图形处理单元(GPU)在视觉感知、语言处理和语音处理等领域取得了巨大成功,但在更注重动作执行的机器人领域,尚未取得同样成功的成果。当前的AI技术在开放环境中仍面临巨大挑战。论文分析了现有具身智能研究的动机,并提出了本文的研究目标,即从形态、动作、感知和学习的协同作用角度进行综述,强调这些组件之间的连接性。论文的组织结构包括对具身智能历史的简要回顾、提出的具身智能架构、一些研究前沿以及结论。长期历史:具身智能的思想有着悠久的历史,可以追溯到古希腊哲学家亚里士多德、查尔斯·达尔文、梅洛-庞蒂、克劳德·贝尔纳、沃尔特·坎农、马丁·海德格尔、诺伯特·维纳、让·皮亚杰和詹姆斯·吉布森等人的工作。这些思想家在哲学、生理学、心理学和认知科学领域奠定了具身智能的基础。现代人工智能的起源:现代人工智能起源于20世纪50年代的达特茅斯会议。在一段时间内,人工智能研究主要集中在符号处理(symbolism)范式上,即通过符号和规则来模拟智能行为。然而,这种方法在实际应用中遇到了局限性。连接主义的兴起:随着多层感知器、前馈神经网络、循环神经网络和深度神经网络的发展,连接主义成为主流。这些方法在适应性和泛化能力方面取得了显著进步,但在与真实物理世界的交互方面仍然存在局限。Moravec悖论:Moravec悖论指出,计算机在某些任务上(如下棋)表现优异,但在其他任务上(如像一岁孩子一样感知和行动)却非常困难。这促使研究者重新思考智能的本质。具身智能的崛起:Rodney Brooks等人强调,智能需要一个身体,智能是具身的并与环境密切相关。这一观点推动了具身人工智能(Embodied Artificial Intelligence, EAI)的发展。具身与离身智能的互补:具身智能和离身智能不是互斥的,两者可以在符号主义、连接主义和行为主义中找到。它们的目标是相同的,包括理解生物系统、模仿智能行为和设计人工智能体。具身智能和离身智能应相互补充,共同推动智能的理解、模拟和扩展。论文指出,具身智能和离身智能的紧密结合是实现通用人工智能的必要途径。通过结合两者的优势,可以更好地理解和模拟智能行为。

论文提出了一个统一的框架,强调了形态学(morphology)、动作(action)、感知(perception)和学习(learning)模块之间的相互作用。

详细讨论了基于学习的动作生成,特别是如何使用机器学习方法来生成动作。

历史背景:强化学习的基本思想源于20世纪50年代由Richard Bellman提出的马尔可夫决策过程(Markov Decision Process, MDP)。MDP为智能体提供了一个框架,使其能够根据当前状态选择最佳动作。Q-learning算法:Chris Watkins在1989年提出了Q-learning算法,奠定了强化学习的基础。Q-learning是一种无模型的强化学习方法,通过学习一个动作值函数(Q函数)来选择最优动作。深度学习的结合:随着深度学习的发展,Deep Q-Network(DQN)将卷积神经网络的特征提取能力与强化学习的动作学习能力结合起来,在人机博弈等领域取得了巨大成功。动作生成:强化学习方法已成为具身智能中生成动作的重要手段。通过设计状态空间、动作空间和奖励函数,可以训练智能体在特定任务中生成有效的动作序列。应用实例:强化学习广泛应用于机器人控制、游戏AI、自动驾驶等领域。例如,PPO(Proximal Policy Optimization)和SAC(Soft Actor-Critic)是最广泛使用的算法之一。挑战与机遇:设计强化学习算法是机器学习领域的研究重点。需要确定状态空间、动作空间和奖励函数,这些参数与具体任务密切相关。此外,强化学习在处理复杂环境和多任务时仍面临挑战。

重点在于利用形态计算来生成动作。这一部分的核心思想是通过形态计算将部分计算任务从大脑转移到身体,以提高计算效率并进一步控制行为。

被动行走机器人:在20世纪90年代开发的被动行走机器人通过设计特殊的形态结构,能够在浅坡上实现稳定的步态而不需要主动控制输入。这种方法放弃了在动力学建模和控制中对机器人关节控制的严格要求,使机器人能够完全依靠其形态来控制行为。快速奔跑的四足机器人:近年来,研究人员探索使用形态计算来实现四足机器人的快速奔跑。通过设计特定的形态结构,机器人能够在不同的地形上实现高效的奔跑。动态形态计算:研究人员还利用动态形态计算来生成蛇形机器人的周期性步态。这种计算方法允许机器人在复杂环境中灵活移动。触觉感知中的形态计算:形态计算在触觉感知中的应用也是一个研究方向。研究人员从显示、传感和交互等方面探讨了自然和人造系统中的形态计算。适应不同地面的动物腿控制方法:受沙漠蝗虫的启发,研究人员研究了动物腿适应不同地面的控制方法,并在玻璃、砂岩、木材和网格等表面上进行了机器人动态粘附实验。储备计算模型:形态计算中最常用的方法是储备计算(Reservoir Computing, RC),它属于动态系统分析方法。在RC模型中,物理形态被视为一个物理储备计算(PRC)设备。RC模型的计算机制是一个神经网络结构,其中中间层的参数是随机固定的,只有输出层的参数需要训练。因此,网络的训练非常方便,只需解决一个线性优化问题。物理储备计算模型:研究人员构建了多种物理储备计算模型来实现形态计算。例如,使用质量-字符串系统构建储备计算模型,并详细分析了其动态特性,提供了一个通用的形态计算模型。软体机器人中的应用:软体机器人由于其变形能力、灵活性和安全性等优点,成为形态计算的理想工具。研究人员利用软体机器人实现复杂的非线性行为,并在没有外部控制器的情况下实现闭环控制。定量评估:尽管基于动态系统的储备计算模型在模拟形态计算方面取得了很大成功,但这些方法主要侧重于定性模拟,缺乏定量评估能力。信息理论方法在这方面具有明显优势。因果模型:为了定量分析形态计算系统的性能,研究人员提出了建立包括大脑、执行器、传感器和环境在内的认知系统的因果模型。控制复杂性分析:研究人员还通过分析控制复杂性来评估形态计算的作用。例如,利用概率最优控制方法来分析机器人形态可以承担多少计算工作。简单性量化:最近的研究表明,可以通过约束状态和动作之间的互信息来获得简单的动作,从而满足策略的复杂性。小结这一领域的研究工作主要探索如何将“大脑”负责的计算任务卸载到“身体”上,并如何准确评估“身体”承担的形态计算。这是一个结合机制、材料和控制技术的新兴交叉学科。除了人工设计形态结构外,形态计算的理论也取得了很大进展,包括储层计算模型和信息理论分析方法。通过形态的优势,可以有效地克服高维机器人控制中的“维度诅咒”问题,这被称为“形态的祝福”。

该部分关注如何利用动作信息来简化控制任务,并通过形态信息来提高控制效率和性能。

复杂性:对于具有复杂形态的智能体,设计控制器时需要处理高维度和非线性问题。传统的强化学习方法通常不利用智能体的形态特征,而是简单地将来自不同部分的观察结果拼接在一起,导致控制变量的搜索空间过大。优化困难:这种方法的缺点是学习到的控制变量难以在不同形态之间进行迁移。因此,动作驱动的形态控制的主要任务是如何有效地将形态信息整合到控制器的学习过程中。显式编码:显式编码方法通过直接编码智能体的形态信息来解决问题。例如,可以将不同关节的相对位置拼接成一个向量,以方便建模机器人的运动结构。这种方法利用了一些先验信息,但仅适用于简单的串联操作,不适合更复杂的形态。隐式编码:隐式编码方法在优化学习策略的过程中迭代优化形态的编码。这意味着算法不仅寻找从状态到动作的最佳映射,还发现形态的最佳编码。尽管这种方法在相同类型的不同自由度机械手中表现出良好的迁移能力,但它带来了新的优化困难,并且没有充分利用机器人的先验形态信息。图神经网络节点和边:在强化学习领域,研究人员引入图结构来提高学习效率。图神经网络(GNN)通过消息传递机制处理不同关节之间的关系。每个节点可以将其状态信息传递给相邻节点,并综合其他节点发送的状态信息来更新自身状态。统一控制策略:为了提高跨平台转移性能,研究人员提出使用图神经网络来描述形态信息,并实现统一的控制策略。这种方法在处理复杂形态时表现出色,但在实际应用中仍面临挑战。自注意力机制:Transformer模型因其自注意力机制而受到关注。通过将注意力设计为边到顶点的聚合单元,Transformer可以被视为一个全连接的图神经网络。这种方法克服了传统图神经网络中的“过度平滑”问题。Metamorph结构:研究人员提出了一种称为“Metamorph”的结构,用于大规模机器人形态控制问题。通过将机器人形态作为Transformer的输入,学习一个通用策略来同时控制大量不同的机器人,为大规模预训练模型奠定了基础。形态迁移迁移挑战:由于图神经网络等方法直接描述形态特征,因此在相似形态之间观察到良好的迁移性能。然而,当形态差异较大时,迁移性能下降,因为不同形态之间的状态空间和动作空间差异很大。分层解耦策略:为了解决这一问题,研究人员提出了分层解耦策略,其中只转移高层策略,而低层策略仍然独立学习。通过引入互信息来最小化形态和低层动作之间的差异,以实现低层策略的对齐。小结基于动作的形态控制是一个高度复杂的任务,涉及高维度、非线性和强耦合问题。形态信息提供了重要的先验信息,可以显著限制搜索空间并提高学习效率。目前,图神经网络和Transformer是描述形态结构的代表性方法,但这些工作主要在模拟环境中进行,实际物理系统的应用仍面临许多挑战。未来研究的一个重要方向是设计一个统一的形态控制器,以适应不同机器人。

该部分关注的是智能体如何根据环境感知信息在线调整其形态,以适应不同的环境和任务需求。

多模态移动机器人:研究人员报告了一种多模态移动机器人,它通过改变其附加装置来增强其移动能力。例如,机器人可以在轮子、腿和螺旋桨之间转换,以适应不同的地形,如地面、空中和水面。这种形态变换依赖于感知信息,要求高实时性能。四足机器人动态调整腿部长度:另一个例子是四足机器人,它可以根据在不同地面上的行走需求动态调整腿的长度。这种调整有助于机器人在不同地形上保持平衡和稳定性。两栖飞行车辆:研究人员还探讨了两栖飞行车辆,它可以通过热、化学或电刺激来连续驱动液态金属滴的运动,从而改变车轮机器人的重心以产生滚动扭矩。变色软体机器人:报告了一种变色软体机器人,它可以模仿变色龙根据环境调整颜色。这种形态变换依赖于视觉感知信息,以适应不同的环境背景。硬件依赖:感知驱动的形态变换高度依赖于硬件技术。尽管有许多相关研究,但目前缺乏标准化的设计原则。材料和机制的挑战:形态变换依赖于材料和机制的创新,这些领域的进展直接影响形态变换的实现和应用。实时性能要求:由于形态变换需要快速响应环境变化,因此对实时性能有较高要求。这需要在硬件设计和算法优化上进行深入研究。小结感知驱动的形态变换是机器人技术中的一个重要研究方向,它通过在线调整机器人的形态来适应不同的环境和任务。尽管已有许多相关研究,但标准化设计原则的缺乏以及材料和机制的挑战仍然是实现这一目标的主要障碍。未来的研究需要进一步探索硬件和软件的协同优化,以实现更高效和可靠的形态变换。

该部分关注如何利用学习技术来优化机器人的形态,以提高其在特定任务中的表现。

生物进化:在生物学中,形态优化是一个常见的现象。生物体的形态通过进化过程逐渐优化以适应环境。例如,动物的四肢从鳍进化而来,经过形态优化后,能够更好地适应陆地行走。锻炼和学习:生物体还可以通过锻炼和学习进一步优化其形态参数。这种优化过程启发了研究人员在机器人领域探索类似的形态优化方法。进化强化学习方法:早期的形态和控制器联合优化问题主要基于进化搜索方法。这种方法在进化搜索空间中寻找最优的形态参数和控制器参数。近年来,研究人员开始关注特定任务需求的编码方法。例如,研究人员使用图神经网络控制器,并引入物种概念,设计突变操作来添加和删除节点,实现图上的进化搜索。这种方法可以共享控制器参数,从而减少学习时间。直接强化学习方法:随着强化学习的快速发展,一些研究尝试直接使用强化学习来联合优化形态和控制器。这种方法通常面临大搜索空间和形态与控制器的耦合问题。例如,研究人员使用PPO算法联合优化形态参数和控制参数。为了限制搜索空间,他们通常只优化特定机器人组件的参数,而不是整个机器人的结构。物理实现:尽管理论上的形态优化取得了进展,但在物理系统中实现这些优化仍然是一个挑战。早期,研究人员使用3D打印技术来实现从仿真中获得的形态,但发现仿真和物理环境之间存在差异。为了解决这个问题,研究人员提出了连续形态建模方法和考虑仿真到现实转移效应的方法。最近,研究人员设计了可以在物理系统中直接进行形态进化的方法,例如使用线性执行器来改变四足机器人的腿长。应用和研究方向软体机器人:形态优化在软体机器人中的应用取得了显著进展。软体机器人由于其内在的材料特性,能够减少机械和算法复杂性,成为形态优化的重要研究方向。模块化机器人:研究人员还在模块化机器人上进行了形态优化,以探索更复杂的任务和环境适应性。研究挑战:尽管形态优化在理论上取得了进展,但在实际应用中仍面临许多挑战,特别是在物理系统中的实现和验证。小结学习驱动的形态优化是一个结合了生物学灵感和现代机器学习技术的领域。通过进化强化学习和直接强化学习方法,研究人员能够优化机器人的形态以提高其任务表现。然而,将这些优化应用于物理系统仍需克服许多技术和工程挑战。未来的研究应继续探索高效的形态表示和优化算法,以实现更广泛的应用。

即如何利用环境感知信息来指导智能体生成动作以与环境互动。该部分涵盖了多个机器人任务中的常见方法,特别是那些依赖于视觉和其他感知模态的任务。

视觉感知的发展:在过去几十年中,传感器和感知算法迅速发展。最新的硬件和算法被集成到机器人平台上,推动了视觉感知任务的进步。解析方法:早期的视觉操纵任务主要采用解析方法,使用接触模型来计算适当的接触力和力矩。然而,这些方法需要对象的全局知识,而在只有部分和噪声的感知信息下很难实现。数据驱动方法:随着深度学习技术在计算机视觉领域的成功,越来越多的数据驱动方法被提出用于机器人操纵任务。端到端方法,即单个网络直接从视觉输入回归动作,变得越来越流行。视觉导航:视觉导航任务中,智能体需要规划合理的路径到达目的地。通过视觉同时定位与地图构建(SLAM)技术,智能体能够更好地感知和理解其环境。多模态感知的重要性:多模态感知在导航中被广泛使用。通常情况下,视觉和深度信息对于移动机器人是必要的。Kinect、Realsense、超声波和激光雷达等传感器常用于室内或室外场景。多模态数据集:一系列多模态数据集被开发出来,用于研究和工业目的。这些数据集帮助研究人员在多模态环境下测试和改进算法。多模态感知的应用:多模态感知在某些任务中是必不可少的,例如在单一模态难以解决的问题中。视觉、触觉和听觉模态的融合常用于识别物体的不同属性。视觉语言导航(VLN):语言条件下的导航任务的一个典型例子是视觉语言导航(VLN),智能体通过将语言与视觉感知对齐来执行导航指令。智能体需要同时理解导航指令和视觉信息,并生成相应的导航动作。扩展到操纵任务:随着VLN的成功,研究人员将其扩展到操纵任务中,形成了所谓的视觉-语言-操纵(VLM)任务。VLM任务与VLN类似,但可能面临更复杂的动作规划和更细粒度的动作空间。小结感知驱动的动作生成任务在机器人领域非常常见。随着深度学习和计算技术的快速发展,端到端模型直接将感知信息投影到动作空间的方法已成为主流。此外,多模态感知和语言条件下的动作任务也变得越来越流行。然而,将这些技术应用于实际场景仍然面临许多挑战,特别是在自然语言、多模态感知和复杂动作的结合方面。未来的研究需要进一步探索这些技术的应用和优化。

强调通过目标导向的探索来改善感知能力。该部分的核心思想是,通过智能体的动作来改善其对环境的感知,从而解决传统计算机视觉中的一些难题。

主动视觉感知主动对象检测:在主动视觉感知中,对象检测任务可以通过引入动作来转变为“主动”版本。如果目标对象不在初始视野内,智能体需要探索环境以发现对象。或者,通过智能控制策略调整相机姿态,以便更好地检测被遮挡或尺寸较小的对象。主动对象识别:对象识别任务也可以通过调整相机姿态来获取更具区分性的视角。例如,识别一个人时,从正面比从背面更容易识别。主动对象跟踪:对象跟踪任务要求在视频流中准确检测和关联对象。当对象移出视野时,传统的跟踪算法可能失效。主动对象跟踪可以通过实时调整相机姿态来保持对象在视野内。视觉语义导航视觉语义导航(VSN):VSN任务是主动对象检测和识别的扩展,用户只需提供语义目标对象,智能体可以自主在环境中搜索。这种任务通常使用语义标签或对象图像来描述目标。模拟与现实环境的差距:当前的VSN模型大多在仿真环境中训练,这带来了仿真与现实环境之间的差距。研究人员讨论了仿真与现实环境的不匹配问题,并提出了利用机器人自身能力结合3D感知信息来提高对象发现能力的方法。动态场景处理:场景的动态性质对对象发现能力有很大影响。研究人员建立了动态时空场景图来实时更新场景信息,以适应环境的变化。任务介绍:EQA任务是主动感知中的高级主题,智能体从3D环境中的随机位置开始,通过主动探索环境来回答自然语言问题。发展挑战:当前的EQA任务在语言理解、任务规划、视觉感知和动作执行方面面临许多挑战。研究人员通过引入图像标注等技术来提高环境描述能力,并通过知识图谱来实现复杂问题的理解和推理。场景泛化能力:EQA任务的表现通常缺乏场景泛化能力。研究人员通过引入更多类型的输入模态(如RGB-D和点云)和改进的多模态感知来提高性能。小结动作驱动的感知改进是一类典型的身体化智能任务,通过在智能体采取动作时改善感知来提高任务效果。这种方法呈现了“时间换空间”的特点,即在时间和计算资源上的投入换取更好的感知效果。然而,由于其复杂性和部署难度,应用仍然有限。最近的研究越来越多地结合语义和语言,这可能为动作驱动的感知提供更多的应用机会。然而,动态场景的处理仍然是一个挑战。

强调了通过智能体的动作来改进其感知和认知能力。该部分的核心思想是利用智能体的动作来促进学习过程,从而提高其在开放环境中的适应能力。

通过学习改进感知语义好奇心奖励:研究人员引入了语义好奇心奖励,通过当前帧和前一帧的语义图一致性来引导智能体探索环境并收集有利于提高模型性能的数据。这种方法鼓励智能体在环境中主动探索,以发现新的信息。自监督学习:研究人员构建了一个3D全局场景语义图,并将其反投影到2D空间以生成伪标签,从而实现自监督学习。通过使用3D语义体素的数量作为奖励,鼓励智能体探索具有更多语义信息的区域。熟悉和不熟悉样本的角色分析:研究人员分析了熟悉和不熟悉样本在具身学习过程中的不同作用,并设计了一种新的自监督学习方法。这种方法通过分析样本的不确定性来优化学习过程。物理实现:研究人员还探索了基于不确定性的语义分布来学习探索轨迹,并尝试在物理环境中实现。此外,研究人员提出了一个包含视觉数据和密集点云数据的3D具身数据集,利用不同视角下的3D感知结果的一致性来收集数据。表征学习好奇心驱动的表征学习:研究人员通过一系列游戏来探索好奇心驱动的表征学习。这种方法通过智能体与环境的互动来学习视觉特征,从而提高其感知能力。物理交互:研究人员利用机械臂通过简单的触觉传感器与物体进行物理互动,以帮助学习视觉特征。这种方法展示了通过物理交互来增强表征学习的效果。DensePhysNet:研究人员提出了DensePhysNet,通过主动执行一系列动态交互来学习物体的多种物理属性。这种方法通过物理交互来丰富智能体的表征能力。讨论


具身AI的优点:

身体与环境互动:具身AI最重要的特点是引入了“身体与环境的互动”,从而引入了动作维度。这种互动使得许多困难的任务变得更容易解决。例如,通过移动到更好的视角来识别人比从背面观察更容易。形态信息的利用:适当利用身体形态信息可以显著简化控制器的设计。例如,通过设计飞机的空气动力学配置来实现更灵活的运动。多领域的整合:具身AI强调环境、身体和大脑的紧密耦合,这一过程需要整合形态学、感知、动作、学习和语言等多个领域。由于这些领域具有不同的特点,实现它们的对齐非常具有挑战性。端到端的实现:具身AI的实现需要完美地实现各种组件,如环境感知、语言理解和行为控制等。因此,以优雅的方式实现端到端的解决方案是非常困难的。紧密相关性:具身AI与机器人学密切相关,甚至在许多情况下会被混淆。具身AI的核心是从身体与环境的互动中生成智能,而机器人只是具身AI的一种体现。扩展性:具身AI可以被视为去耦化AI的扩展,旨在向机器人领域发展。机器人通常具有物理身体,因此在早期研究中较少使用“具身”一词来修饰相关研究工作。


从去耦化机器学习中汲取灵感:

自监督学习:传统的监督学习方法要求训练集和测试集分离,并提供准确的标签,这在动态和开放环境中会阻碍智能体的适应性。自监督学习提供了一种新的学习范式,通过构建伪标签来缓解标注压力。终身学习:虽然起源于机器人领域,但终身学习近年来在机器学习领域也受到了广泛关注。它提供了克服灾难性遗忘的方法,适用于识别、检测等任务,并已扩展到强化学习领域。形态计算与控制:当前的模拟环境中研究的许多具身导航任务只使用简单的动作空间,未考虑智能体的形态特征。形态是生成智能的重要工具,但在支持具身智能发展中尚未成为重要研究方向。材料与设计的挑战:形态的成功高度依赖于材料的选择,这在选择、驱动和设计方面仍然面临巨大挑战。软材料的广泛应用为未来研究提供了广阔的空间。

来源:人工智能学家

相关推荐