世界模型在机器人任务规划中的全新范式:通用机器人规划模型FLIP

B站影视 欧美电影 2025-03-19 12:28 1

摘要:本文的作者均来自新加坡国立大学 LinS Lab。本文第一作者为新加坡国立大学博士生高崇凯,其余作者为北京大学实习生张浩卓,新加坡国立大学博士生徐志轩,新加坡国立大学硕士生蔡哲豪。本文的通讯作者为新加坡国立大学助理教授邵林。

本文的作者均来自新加坡国立大学 LinS Lab。本文第一作者为新加坡国立大学博士生高崇凯,其余作者为北京大学实习生张浩卓,新加坡国立大学博士生徐志轩,新加坡国立大学硕士生蔡哲豪。本文的通讯作者为新加坡国立大学助理教授邵林。

人类具有通用的、解决长时序复杂任务的规划能力,这在我们处理生活中的复杂操作任务时很有用。这种能力可以被描述为这样的过程:首先,人们会在面临一个任务时思考当前可能的动作,然后通过想象能力预测这些步骤可能带来的结果,最后基于常识对这些结果进行打分,选择最佳动作来执行并完成任务。这种基于世界模型的搜索算法是人类解决开放世界操作任务的能力基础。这种能力背后的核心在于,人类大脑构建了一个关于物理世界的 “世界模型” 和一个通用的价值函数,他们模型赋予了我们对于物体未来状态的想象能力和规划能力。那么,机器人能否也具备这样的对物理世界的理解和想像能力,使得能够在执行任务之前就能规划好未来的步骤?

近年来,机器人技术飞速发展,我们见证了越来越多智能化机器人的出现。然而,与人类相比,现有机器人在处理复杂、多阶段任务时仍显得力不从心。它们往往依赖于特定任务的数据和预设指令,或者借助大模型在简单的抓取技能上进行规划,难以像人类一样灵活地规划和执行复杂通用的操作任务。如何为机器人构建类似于人类的 “世界模型”,从而实现通用任务规划能力,一直是机器人研究中的核心挑战。

近日,来自新加坡国立大学的邵林团队提出了 FLIP:一种基于世界模型的视频空间任务搜索和规划框架。该方法能够适用于通用的机器人操作任务上,包括可行变物体操作和灵巧手操作任务。该方法直接基于机器人视觉空间进行任务规划,通过特殊设计的动作提出模块、动力学预测模块、和价值函数预测模块进行基于世界模型的任务规划,且具有模型参数量的可扩展性。该论文已发表在 ICLR 2025 上,并在 CoRL 2024 LEAP Workshop 中被选为 Oral Presentation。

论文标题:FLIP : Flow-Centric Generative Planning as General-Purpose Manipulation World Model项目主页:https://nus-lins-lab.github.io/flipweb/论文链接:https://arxiv.org/abs/2412.08261代码链接:https://github.com/HeegerGao/FLIP

视频链接:

世界模型(World Models)指的是基于学习的方法,用于模拟环境的表示或模型。借助世界模型,智能体可以在模型内部进行想象、推理和规划,从而更加安全且高效地完成任务。近期生成模型的进展,特别是在视频生成领域,展示了利用互联网规模的训练数据生成高质量视频,以作为世界模拟器的应用潜力。世界模型在多个领域开辟了新途径,尤其是在机器人操纵任务方面,这也是本文的研究重点。

通用机器人的智能主要分为两个层次:第一,通过多模态输入对任务进行高层次的抽象规划;第二,通过与现实环境交互实现计划的具体执行。设计良好的世界模型能够有效地实现第一个功能,即实现基于模型的规划。这种模型需要具备交互性,能够根据给定的动作来模拟环境状态。框架的核心在于找到一种通用且可扩展的动作表示,连接高层规划和低层执行。这种动作表示需满足两个要求:一是能表达场景中不同物体、机器人及任务的多种运动;二是容易获得大量的训练数据以支持扩展。现有方法或是依赖语言描述作为高层动作,或是直接采用底层的机器人动作与世界模型互动,但这些方法存在一些限制,比如需要额外的数据或标注过程,或者无法描述精细复杂的动作细节,例如灵巧手的精细动作。这些限制激励我们探索其他更有效的动作表示。同时,现有的世界模型缺乏合适的价值函数作为结果的评价标准,对未来的规划常常限制在贪心搜索层面,难以实现真正的任务空间的搜索能力。

图像流是一种描述图像中像素随时间变化的动态表示,能够通用且简洁地表示不同机器人和物体的运动,比语言更加精细和准确。此外,图像流可以直接通过已有的视频追踪工具从视频数据中获取。同时,已有研究表明,图像流对于训练低层次的操控策略也具有很高的有效性。因此,图像流非常适合作为世界模型的动作表示。然而,目前如何使用图像流来规划机器人操控任务仍有待探索。

在本文中,我们提出了以图像流为中心的通用机器人操控规划方法(FLIP)。具体而言,我们从带有语言标注的视频数据中训练出以图像流为核心的世界模型。该世界模型包括三个模块:一是负责动作生成的图像流生成网络;二是根据图像流生成视频的动力学模型;三是进行视觉语言评估的价值模型。我们设计了一种新的训练方式,用于整合这三个模块,以实现基于模型的规划:给定初始图像和任务目标,动作模块生成多个图像流方案,动力学模型预测短期视频结果,价值模块评估视频生成结果的优劣,通过树搜索方法合成长期规划。

实验结果表明,FLIP 方法不仅可以成功解决模拟和真实环境下的多种机器人操控任务,如布料折叠、展开等,还能生成高质量的长期视频结果。同时,这些图像流和视频规划也能用于指导低层次策略的训练。此外,我们还证明了 FLIP 的三个模块均优于现有相关方法。进一步的实验也显示,FLIP 能有效模拟各种复杂的机器人操控任务,展现了其良好的交互性、零样本迁移和可扩展能力。本文的主要贡献如下:

提出了以图像流为中心的通用机器人操控规划方法(FLIP),实现了交互式的世界模型。设计了图像流生成网络、流条件视频生成网络,以及一种新的视觉语言表示模型训练方法作为 FLIP 的核心模块。通过实验验证了 FLIP 方法在多种任务上的通用性与优越性,展现了出色的长期规划能力、视频生成质量和策略指导能力。

图 1 FLIP 框架介绍

二、FLIP 的三个模块

我们把机器人操作任务建模为 MDP,我们旨在通过学习一个世界模型和一个低层策略来解决这一问题。世界模型在图像和图像流空间上进行基于模型的规划,以最大化回报,合成长时程的规划方案;而低层策略则负责在真实环境中执行这些规划。我们计划仅使用带有语言标注的视频数据集来训练世界模型,使其具备通用性和可扩展性,而低层策略则利用少量带有动作标注的数据集进行训练。为了实现基于模型的规划,我们的世界模型包含以下三个关键模块,具体将在接下来的章节中介绍。

2.1 图像流生成作为通用的动作模块

FLIP 的动作模块是一个图像流生成网络,其作用是生成图像流(即查询点在未来时刻的轨迹)作为规划的动作。我们之所以使用生成模型而非预测模型,是因为在基于模型的规划过程中,动作模块需要提供多种不同的动作候选,以用于基于采样的规划方法。具体来说,给定时刻 t 之前 h 步的图像观测历史、语言目标,以及一组二维查询点坐标,图像流生成网络会生成未来 L 个时间步内(含当前时间步)的查询点坐标。

一个关键的问题是训练数据标注。查询点的图像流可以直接使用现有的视频点跟踪模型(例如 CoTracker)从纯视频数据中提取。然而,如何选取查询点成为问题。以往的方法或是使用自动分割模型在感兴趣区域选取查询点,或是按照预定义的比例在运动和静止区域选取查询点。这些方法存在两个问题:一是现代分割模型(例如 SAM)很难在复杂场景下准确无误地分割出目标区域;二是在长时间的视频中,可能出现物体的进入或离开,仅使用初始帧的查询点会产生问题。因此,我们在每个时间步对整幅图像均匀采样密集的网格查询点,以解决第一个问题;同时,仅对短时程的视频片段进行跟踪,即从长视频的每一帧开始进行短时程跟踪,以缓解第二个问题。这样,即便有物体进出,其影响也被限制在短时程内。具体来说,对数据集中每一帧,我们均匀采样一个候选点网格,并利用现有的 Co-Tracker 工具生成未来 L 步的视频片段中的图像流。

如图 2 所示,我们设计了一个以 Transformer 架构为基础的条件变分自编码器(VAE)进行图像流生成。与之前预测绝对坐标的方法不同,我们发现预测相对位移的表现更好,即预测每个查询点的坐标变化量。在 VAE 编码器端,我们对真实图像流进行编码,将观测历史转换成图像区块(patches),并利用语言模型 Llama 进行语言嵌入编码成 token,将它们与一个用于信息汇聚的 CLS token 拼接后送入 Transformer 编码器,将 CLS 位置的输出提取为 VAE 的隐变量。在 VAE 解码器端,我们首先将当前时刻 t 的查询点编码成查询 token,将它们与图像和语言 token 以及重参数化采样出的隐变量 z 拼接后送入另一个 Transformer 编码器,提取查询 token 位置的输出,通过两个 MLP 网络预测未来 L 步的位移幅度和位移方向,从而逐步重构完整的未来图像流。同时,我们还对图像 token 位置的输出进行图像重建任务的辅助训练,这被证明对提高模型训练的准确性有帮助。

图 2 动作模块和动力学模块

2.2 基于图像流的视频生成模型作为动力学模块

我们的第二个模块是一个动力学模块,是以图像流为条件的视频生成网络,根据当前的图像观测历史、语言目标和预测的图像流生成后续 L 帧视频,以实现下一步的迭代规划。

我们设计了一种新的基于潜在空间的视频扩散模型,能够有效地接受多种条件输入,如图像、图像流和语言。该模型基于 DiT 架构构建,并结合了空间 - 时间注意力机制。在此我们着重介绍多模态条件处理机制的设计。在原始的 DiT 及之前基于轨迹条件的视频扩散模型中,通常使用自适应层归一化(AdaLN-Zero)处理条件输入(例如扩散步骤和类别标签),其通过零初始化的 MLP 网络回归出层归一化的缩放和平移参数。然而,这种机制会将所有条件信息压缩为标量,无法实现条件与输入之间更精细的交互,因此不适用于图像与图像流等复杂条件。为了解决这一问题,我们提出了一种混合条件处理机制,用于多模态条件生成。

具体而言,我们使用交叉注意力机制,使图像流条件(表示为目标点的 tokens)与观测条件及带噪帧之间进行细粒度的交互。对于历史图像观测条件,我们将其直接拼接到高斯噪声帧上。此外,我们仍然使用 AdaLN-Zero 机制处理全局条件,包括扩散步骤和语言指令,以整体指导扩散过程。为了保证观测条件的清晰性,在扩散过程中我们既不向观测历史添加噪声,也不对其进行去噪处理。

2.3 视觉 - 语言表征学习作为价值函数模块

FLIP 的价值模块基于语言目标对当前图像进行评估,从而生成一个价值函数估计 V̂t,用于在图像空间进行基于模型的规划:V̂t = V (ot, g)。在本研究中,我们采用了 LIV 模型作为价值函数。LIV 首先从带语言标注的无动作视频中学习语言 - 视觉的共享表示,随后基于当前图像与目标语言的相似度计算价值。具体而言,LIV 计算图像与语言表示的加权余弦相似度,作为价值的衡量标准。预训练的 LIV 模型在应用于新任务时需要进行微调以获得良好的价值表示。原始的微调损失包括图像损失和语言图像损失,前者通过时间对比学习增加起始帧与结束帧的相似性,同时将相邻帧的嵌入距离维持为(经过折扣的)固定值;后者则鼓励目标图像与目标语言的相似性提升。

然而,我们发现该原始的微调方法对于长时程且不完美的视频数据表现不佳,微调后的价值曲线呈现明显的剧烈波动,这对基于采样的规划算法十分不利,因为多数规划算法期望平滑的价值曲线。例如在规划过程中,机械臂可能出现暂停或犹豫等情况,导致任务表现不稳定。为了缓解这一问题,我们将原有损失函数中 "相邻帧" 的概念替换为 "相邻状态",将状态定义为短时程的视频片段。具体地,我们将长视频划分为多个固定长度的小片段,每个片段被视作视频的最小单元。通过此调整,能有效平滑价值曲线,显著改善规划过程中价值评估的平滑性,如图 3 所示。

图 3 价值函数模块

三、基于流的世界模型规划算法

3.1 基于模型的图像流、视频与价值函数规划

直接以自回归方式生成长时程视频通常不够准确。因此,我们采用基于模型的规划方法,使用图像流动作模块和视频生成模块,通过最大化累积折扣回报来规划未来视频帧,公式表示为:

根据贝尔曼方程,这等效于每一步选择使即时奖励与未来状态价值之和最大的下一状态。我们设计的奖励机制也鼓励找到最短的规划路径。我们使用爬山法(Hill Climbing)解决该问题,具体操作是首先初始化 B 个规划束(beam)。在每个时刻 t,根据当前的图像观测历史和语言目标,动作模块生成多个图像流动作候选方案;然后动力学模块基于这些图像流生成若干个短期未来视频片段。接着,通过价值模块评估生成的视频,选择 A 个视频中具有最高奖励的视频,以进行下一轮迭代。为了防止规划过程过于依赖某些异常状态,我们周期性地将具有最低价值的规划束替换为最高价值的规划束。该算法总结在图 4 中。

3.2 下层策略的实现

FLIP 的低层策略负责具体执行规划好的动作。在给定当前图像历史、语言目标、图像流动作,以及视频生成模块生成的短时程视频后,该策略预测具体的低层机器人动作,从而引导机器人在真实环境中进行操作。我们训练了多个策略,每个策略输入不同类型的条件信息,所有策略都仅需使用少量的示范数据进行训练。

图 4 基于世界模型的规划算法流程

四、实验结果

4.1 基于模型的机器人操控任务规划结果

在本节中,我们首先展示 FLIP 能够:1)实现不同机器人操控任务的基于模型的规划;2)合成长时程视频(≥ 200 帧);3)指导低层策略在模拟和真实环境中执行任务。我们也分别评估动作模块、动态模块和价值模块,并展示 FLIP 的交互性、零样本转移能力和扩展性。

实验设置。在本节中,我们使用四个基准测试 FLIP 的规划能力。模型以初始图像和语言指令为输入,搜索图像流和视频空间合成任务规划方案。第一个基准是 LIBERO-LONG,一个包含 10 个长时程桌面操控任务的仿真基准,我们使用分辨率为 128×128×3 的 50×10 个视频进行训练,并在新的 50×10 个随机初始化上测试。第二个基准是 FMB,包含物体操作和装配任务,我们使用 1,000 个单物体多阶段视频和 100 个多物体多阶段视频(分辨率 128×128×3)训练,在 50 个新初始化上测试。第三和第四个基准是布料折叠和展开任务,我们使用各 40 个不同视角的视频进行训练,在 10 个新视角上测试(分辨率 96×128×3)。评估方式为人工检查生成视频是否成功解决任务,我们与两个基准方法进行比较:1)UniPi,一种基于文本的视频生成方法;2)FLIP-NV,即移除价值模块的 FLIP 版本。

结果。实验结果如图 5 所示,显示 UniPi 的成功率较低,表明直接生成长视频有较大难度。FLIP-NV 表现优于 UniPi,说明图像流能有效指导视频生成。FLIP 的表现超过了所有基准,体现了价值模块对基于模型规划的重要性。

4.2 长时程视频生成评估

实验设置。本节我们定量评估 FLIP 生成长时程视频的质量,与其它视频生成模型进行对比。我们选择 LIBERO-LONG、FMB、布料折叠 / 展开,以及 Bridge-V2 基准进行评估,视频长度普遍超过 200 帧(Bridge-V2 除外)。我们选择的基准方法包括 LVDM(一种先进的文本到视频方法)和 IRASim(一种以机械臂末端轨迹为条件的视频生成方法)。评估指标包括潜在空间的 L2 距离、像素空间的 PSNR 和 FVD 视频质量评估指标。

图 5 定量实验结果

结果如图 5 所示。FLIP 在所有数据集上表现均优于基准方法。LVDM 在较短的 Bridge-V2 上表现尚可,但在长视频基准(如 LIBERO-LONG 和 FMB)表现不佳。IRASim 表现优于 LVDM,说明轨迹引导的重要性,但由于其自回归生成方式,仍不及 FLIP 通过模型规划和短视频片段拼接的方式生成高质量视频。FMB 的表现普遍较差,原因在于训练视频包含大量瞬时跳跃行为,而 FLIP 依靠历史观测的方式在一定程度上克服了这一问题。我们还定性展示了 FLIP 在 ALOHA 任务、转笔、机器人取药、系塑料袋、人类剥鸡蛋等复杂长视频任务上的应用,如图 6 所示。

图 6 基于世界模型的任务规划结果

4.3 上层规划引导的下层策略实验

实验设置。本节我们探讨生成的图像流和视频规划如何作为条件,用于训练操控策略完成任务。主要问题是确定图像流或视频(或二者结合)哪个更适合指导策略学习。我们使用 LIBERO-LONG 基准进行评估,每个任务使用 10 个带动作标注和 50 个无动作标注的视频示范进行训练。推理阶段,FLIP 作为闭环策略,每执行一段动作后重新规划。我们与 ATM 及其扩散策略版本,以及 OpenVLA(零样本和微调版)进行比较。

结果分析如图 7 所示。我们可以发现,相比扩散策略和 ATM-DP,我们提出的计划引导策略表现出更高的成功率,这表明密集的图像流信息和高质量的未来视频作为条件要优于稀疏的图像流信息。其中,图像流与视频共同引导的策略(Ours-FV)表现最佳,说明结合图像流和视频作为条件信息有助于提升策略成功率。此外,仅用视频引导的策略(Ours-V)虽然表现尚可,但在机器人偏离训练轨迹时生成的视频质量会降低,导致较大的表现波动;而加入图像流作为额外条件后,成功率的方差明显减小,体现了图像流预测的稳定性。

图 7 基于图像流的下层模型的成功率,和 FLIP 的价值函数模块效果

4.4 FLIP 基础特性的实验验证

为展示 FLIP 的几个关键特性,我们在 LIBERO-LONG 等基准数据集上进行了额外的实验验证。实验结果展示在图 8 中。

交互式世界模型能力。我们验证了训练好的动力学模块的交互性,即能够根据人为指定的图像流生成相应的视频。实验表明,该模块能够准确响应用户指定的图像流,生成对应的视频。

零样本迁移能力。我们展示了预训练的 FLIP 模型无需额外微调,即可有效处理未见过的任务数据,成功生成自然的机器人动作,表明 FLIP 具备一定的知识迁移能力。

可扩展性。通过在大规模视频数据集上训练,FLIP 显示出较好的扩展能力。即使面对大量复杂任务和视频数据,模型依然能稳定地实现有效的规划和视频生成。

图 8 FLIP 的三个特性

五、结语

在本研究中,我们提出了 FLIP,一种以图像流为核心的通用机器人操控任务生成规划方法。FLIP 通过图像流和视频生成实现对多种操控任务的通用规划。尽管 FLIP 表现出色,但仍存在一些局限性:首先是规划速度较慢,主要由于规划阶段需要进行大量的视频生成过程,限制了该方法在准静态操控任务中的应用。其次,FLIP 未使用场景的物理属性和三维信息。未来的研究可以考虑开发结合物理性质与三维场景信息的世界模型,以进一步扩展 FLIP 的适用范围。

来源:新浪财经

相关推荐