摘要:视觉-语言-动作基础模型(Vision-Language-Action Foundation Models, VLA)正在引领具身智能体技术迈入一个全新的发展阶段。通过在互联网规模的数据上进行预训练,VLA 为通用机器人、自动驾驶等具身智能体赋予了前所未有的感
视觉-语言-动作基础模型(Vision-Language-Action Foundation Models, VLA)正在引领具身智能体技术迈入一个全新的发展阶段。通过在互联网规模的数据上进行预训练,VLA 为通用机器人、自动驾驶等具身智能体赋予了前所未有的感知与理解能力,使其能够更深刻地解析复杂的视觉环境、准确理解人类指令与反馈,并自主规划多步行动。这一新范式显著提升了机器人行为的泛化能力,使其能够在更加开放、多变的环境中运行,推动具身智能体从特定任务的执行器迈向具备通用智能的自主体。
然而,随着基础模型能力呈指数级增长,我们也必须正视一个关键现实:具身智能体是高度安全敏感的系统。在现实世界中,模型一次误解、一帧延迟或一条模糊指令,都可能引发严重甚至灾难性的后果。正是在这一背景下,“Safely Leveraging Foundation Models in Robotics” 工作坊于 ICRA 2025 会议期间应运而生(完整视频已发布于工作坊官网)。本次工作坊由加州大学伯克利分校博士生田然发起,联合 NVIDIA、Waymo、Stanford、MIT、CMU 等机构共同主办,旨在推动基础模型社区与机器人系统研究之间的深度对话。工作坊汇聚了来自学术界、产业界及多个应用前沿的多元视角,围绕安全性、可扩展性与系统集成等关键议题展开深入探讨,聚焦一个核心问题:在模型能力不断拓展的同时,我们该如何构建真正可行、可信、可持续的具身智能体部署路径?
在本次工作坊中,来自 DeepMind Robotics 的研究科学家Sumeet Singh分享了 Gemini Robotics 项目的最新进展,并首次公开介绍了 Gemini Robotics 项目的系统性安全设计。他提出,具身智能大模型的安全保障不应是“单点防守”,而需构建跨越内容、语义和行为的“分层式防御架构”:
他还展示了如何通过图像编辑技术主动构造“安全梦魇”红队样本,让系统在部署前经历极端测试,从而显著提升鲁棒性。这些成果体现了 DeepMind 在可验证具身智能方向的系统性思考,也为工业落地提供了重要范式。
来自 Waymo 的 Mingxing Tan(Director of Perception Research)介绍了 VLA 在真实自动驾驶系统中的实践路径。Waymo 团队开发的 EMMA 模型不仅具备理解复杂场景的能力,更强调语言与环境的精准对齐(grounding),以提升行为生成的可靠性与可预测性。Mingxing 指出,仅凭语言表层理解远远不够,模型必须理解“为何如此行动”。为此,Waymo 引入 Chain-of-Thought(CoT)推理链条,引导模型在生成动作前显式展开思考过程,增强对决策链条的可解释性与稳定性。这一机制为多模态大模型在高风险任务中的落地提供了可借鉴的实践。
紧随工业视角,Cornell的 Hadas Kress-Gazit 教授带来了一场极具启发性的 keynote。她并未从模型结构或训练技巧切入,而是以“一个希望使用基础模型的机器人研究者”的视角,提出了许多尖锐且极具建设性的问题。她坦言:“我不关心你训练了什么黑盒奇技,我关心的是它能否在现实世界中真正被用起来。” 她批评了当下通用机器人高热度论文中普遍存在的“成功率至上”思维:论文中高亮的 success rate,常常掩盖了“什么才算成功”、“失败是什么样的”、“评估是否公正”这些更关键的系统性问题。她指出,评估不仅需要数字,还需要机制。她呼吁学界与业界重视 blind A/B测试、实验设计透明度、评估者中立性,并进一步强调对任务失败的结构化分析应成为基础模型部署前的“必要功课”。她提出应使用形式化逻辑(Signal Temporal Logic)对机器人行为进行时序验证,从而让“评估”不再是一句模糊的成功率,而是一个可解释、可追踪、可复用的过程。她说的一句话让人印象深刻:“我们正在构建一种我们自己都无法理解的系统,却急于将它部署到现实世界中。”
来自 NVIDIA和斯坦福大学的Marco Pavone 教授 (Associate Professor, NVIDIA Director of Autonomous Vehicle Research) 则从系统工程的角度,进一步回答了 “如何从根本上建立基础模型的部署信任”。他提出了一个关键机制:“Safety Data Flywheel”。这是一个以数据为驱动的安全闭环系统:每一次部署中的失败行为都可以通过仿真被捕捉,再通过影响函数(Influence Function)反向归因到具体训练样本,指导针对性数据修复与微调。Marco 强调:安全不是 checklist,而是一个可自演化的数据机制。尤其令人印象深刻的是他对仿真系统的深入利用。他提出使用 control variate estimator 和 metric correlator,将仿真指标与现实 KPI 建立强关联,显著提升仿真评估的置信度与成本效率,让仿真真正成为“可信部署验证器”,而非只能调试模型的工具。相关机制目前已在 NVIDIA 的 HALOS 平台中部署,用于支持自动驾驶系统的安全验证,体现了“仿真即评估器”的工程落地实践。
来自语言模型与自动规划交叉领域的 Subbarao Kambhampati 教授(前 AAAI 主席)则从生成模型的“风格错觉”切入,带来另一种安全视角。他指出,大模型极擅长“生成看起来合理的语言和动作”,却不一定满足任务约束或逻辑正确性。在具身智能中,这种“风格正确但功能错误”的偏差可能导致严重后果。Kambhampati教授提出 “LLM Modulo”框架,将语言模型明确定位为生成器,并通过形式化验证器、安全约束、偏好建模等模块构建生成-验证闭环,提升输出可靠性。更重要的是,他强调应将验证机制前移至训练后、部署前阶段,引入 RLHF 风格的微调,让模型不仅 “说得像人,也做得靠谱。”
除了多位业界与学界专家的深度分享,本次工作坊还面向全球学生与初级研究者开放了论文投稿通道,收到了来自不同院校的高质量作品,聚焦于基础模型在现实机器人任务中的对齐机制、系统集成和安全性评估。
工作坊发起人田然在总结时指出:“我们讨论的,不只是模型有多强,而是它能否真正落地。不是下一篇 SOTA,而是下一个可托付的系统。真正值得信赖的具身智能基础模型,必须能够在复杂系统中被剖析、归因、修复。未来的具身智能研究将不再满足于‘动起来’,而是迈向‘稳得住、讲得清、改得动’。我们期待更多来自系统工程、安全验证、评估机制、任务建模等领域的研究者加入,一起构建面向现实世界的智能系统操作平台。真正的基础模型革命,不仅是堆叠更多参数,而是让机器人在关键场景下,做出人们敢于信任的决策。”
在技术热潮席卷而来的当下,我们比任何时候都更需要来自一线的质疑与系统思考,去确保下一个被部署的,不是一个更复杂的黑盒,而是一个我们可以理解、控制并信任的具身智能体。这不仅是研究范式的转变,更是对产业界的现实警醒:在基础模型进入生产系统之前,我们必须问清楚——它是否具备稳定可控的行为边界?是否能在关键场景下提供可信的解释与修复机制?是否能融入现有安全评估与责任体系?只有当这些问题被明确回答,我们才能真正迈出“从实验室走向社会”的关键一步。
来源:甲子光年一点号