VLA年度重磅综述:哈工大(深圳)系统梳理大型VLM驱动的机器人操作模型

B站影视 电影资讯 2025-09-08 17:32 1

摘要:机器人操作是具身人工智能(Embodied AI)的关键前沿,它要求机器具备精准的运动控制和复杂的多模态理解能力。然而,传统的机器人技术在面对非结构化、充满变化的真实世界环境时,往往显得力不从心。近年来,随着大型视觉-语言模型(Large Vision-Lan

机器人操作是具身人工智能(Embodied AI)的关键前沿,它要求机器具备精准的运动控制和复杂的多模态理解能力。然而,传统的机器人技术在面对非结构化、充满变化的真实世界环境时,往往显得力不从心。近年来,随着大型视觉-语言模型(Large Vision-Language Models, VLMs)的崛起,一个全新的范式——视觉-语言-行动(Vision-Language-Action, VLA)模型应运而生,为解决这一难题带来了革命性的潜力。

来自哈尔滨工业大学(深圳)的研究团队发表了一篇针对该领域的综述论文,对基于大型VLM的VLA模型在机器人操作中的应用进行了全面梳理。这是学界首个系统性、分类学导向的综述,旨在厘清现有研究脉络,缓解该领域的碎片化问题,并为未来研究指明方向。

大型VLM驱动的VLA模型的核心优势在于,它们能够利用VLM强大的能力,包括:

开放世界泛化能力:理解和操作在训练中未见过的物体。

分层任务规划:将复杂的指令分解为一系列可执行的子任务。

知识增强的推理:利用从海量数据中学到的世界知识进行常识推理。

丰富的多模态融合:紧密结合视觉、语言和动作信息,做出更智能的决策。

论文结构与分类法

为了系统性地梳理这一快速发展的领域,论文提出了一种清晰的组织结构和分类方法。

该综述首先回顾了VLA模型的发展历程和关键里程碑,然后提出了一个核心的分类框架,将现有的大型VLM-based VLA模型划分为两大范式:整体式模型(Monolithic Models)分层模型(Hierarchical Models)

整体式模型:将感知、语言理解和动作生成集成在单一或双系统架构中,实现端到端的控制。

分层模型:通过生成可解释的中间表示(如子任务、关键点、代码程序等),将高层级的任务规划与底层的策略执行明确地解耦。

整体式模型强调一个统一的系统来处理从输入到输出的全过程。根据其内部结构,又可细分为单系统和双系统设计。

单系统模型

单系统模型在一个统一的架构内完成环境理解和动作生成。其经典范式是自回归解码(Autoregressive Decoding),即像生成文本一样,逐个token地生成代表机器人动作的序列。

为了提升模型性能和效率,研究者们从增强感知模态(如引入3D、4D、触觉信息)、增强推理能力(如思维链)和提升泛化能力等方面进行了衍生和优化。同时,为了解决推理速度慢的问题,也发展出了并行解码等推理加速技术。

双系统模型

双系统模型则将功能划分为两个协作模块:一个较慢但更强大的VLM主干(System 2)负责高级推理和场景理解,另一个较快反应的动作专家(System 1)负责生成实时的动作指令。这种“思考”与“执行”分离的设计,旨在兼顾决策的准确性和控制的实时性。

双系统模型的实现方式主要分为级联式(Cascade-based)和并行式(Parallel-based)。级联式中VLM的输出特征被单向传递给动作专家;而并行式中两者并行运作,并进行信息交互。

分层模型的核心思想是将复杂的任务分解。高层的规划器(Planner)负责将用户指令分解为一系列人类可理解的中间步骤,底层的策略(Policy)则负责执行这些具体步骤。

根据中间表示的不同,分层模型可以进一步分为:

基于子任务(Subtask-based):将任务分解为文本描述的子步骤。

基于关键点(Keypoint-based):生成操作过程中的关键空间坐标点。

基于程序(Program-based):生成可由机器人执行的代码。

这种模块化的设计使得模型的每个部分都可以独立优化,并且其决策过程更具可解释性。

除了核心架构的演进,VLA模型也在积极与强化学习、世界模型等前沿技术进行整合,以追求更高的鲁棒性、效率和规划能力。

论文总结了四个主要的前沿整合方向:

基于强化学习(Reinforcement Learning-based):通过与环境的交互和试错来优化策略。

免训练方法(Training-Free):在不重新训练模型的情况下,通过优化计算或结构来提升性能。

从人类视频中学习(Learning from Human Videos):利用海量的人类活动视频来学习操作技能,弥合机器人数据稀疏的鸿沟。

基于世界模型(World Model-based):通过在心中“模拟”物理世界的动态来预测行为后果,从而做出更深思熟虑的规划。

数据集和基准

VLA模型的发展离不开高质量数据的支撑。论文系统梳理了支撑该领域发展的四类关键数据集。

这四类数据集包括:真实世界机器人数据集、仿真数据集与基准、人类行为数据集以及具身AI数据集与基une。它们共同构成了VLA模型训练、评估和迭代的基础。

最后,论文展望了该领域未来值得探索的几个重要方向:

记忆机制与长期规划:让机器人拥有记忆,处理需要跨越长时间步的任务。

3D与4D感知:从静态的2D图像走向动态的3D时空理解。

高效自适应:让模型能够快速适应新任务和新环境。

多智能体协作:研究多个机器人如何协同完成复杂任务。

模型效率:在保证性能的同时,降低模型的计算和存储成本,以便部署在资源受限的机器人平台上。

总结

这篇综述提供了一幅关于大型VLM驱动的VLA模型在机器人操作领域应用的“全景图”。它通过提出一个清晰的分类框架,系统地梳理了现有工作,澄清了不同技术路线的特点与权衡,并指出了未来的机遇与挑战。对于希望了解和投身于这一前沿交叉领域的研究者和工程师来说,这篇论文无疑是一份宝贵的参考资料。

来源:云阳好先生做实事

相关推荐