摘要:在大模型全面渗透的今天,谷歌 DeepMind 正在为机器人打开一扇新门——物理智能体(physical agents)的时代正式来临。它们不仅能感知世界,还能规划、推理、使用工具并自主行动,从而解决那些以往对机器人来说几乎不可能的复杂、多步骤任务。
在大模型全面渗透的今天,谷歌 DeepMind 正在为机器人打开一扇新门——物理智能体(physical agents)的时代正式来临。它们不仅能感知世界,还能规划、推理、使用工具并自主行动,从而解决那些以往对机器人来说几乎不可能的复杂、多步骤任务。
Gemini 的多模态走向物理世界DeepMind 回顾称,在今年早些时候,他们在将 Gemini 的多模态理解引入物理世界方面取得了重大进展,这一突破最初由 Gemini Robotics 模型家族带来。
如今,DeepMind 宣布,他们在推动智能、真正通用型机器人的发展上又迈出了一步,推出了两款能够通过高级思维解锁智能体体验的模型:
Gemini Robotics 1.5—— 这是目前最强大的视觉-语言-行动(VLA)模型,能够把视觉信息和指令转化为机器人可执行的运动命令。该模型在采取行动之前会先“思考”,并展示推理过程,从而帮助机器人更透明地评估并完成复杂任务。同时,它还能够跨不同的具身形态进行学习,加速技能习得。
Gemini Robotics-ER 1.5—— 这是目前最强大的视觉-语言模型(VLM),能够对物理世界进行推理,原生调用数字工具,并创建详细的多步骤计划来完成任务。据介绍,该模型已经在空间理解类的基准测试上达到业界最先进水平。
DeepMind 强调,这些进展将帮助开发者构建更强大、更通用的机器人,使它们能够主动理解环境,并以更通用的方式完成复杂的多步骤任务。
自今日起,Gemini Robotics-ER 1.5已通过 Google AI Studio 的 Gemini API 向开发者开放;而Gemini Robotics 1.5目前则仅对部分合作伙伴开放。更多关于如何使用下一代物理智能体的介绍,DeepMind 已发布在开发者博客上。
解锁复杂物理任务的智能体体验DeepMind 指出,大多数日常任务都需要上下文信息和多个步骤才能完成,这使得它们对于机器人来说依然极具挑战。
例如,如果机器人被要求:“基于我所在的位置,你能把这些物体分到正确的堆肥、回收和垃圾桶里吗?”——它需要先在互联网上搜索相关的本地回收指南,然后观察眼前的物体,并根据规则进行分类,最后执行所有必要的步骤把物体放好。
为了让机器人能完成这种复杂的多步骤任务,DeepMind 设计了两个能够在智能体框架下协同工作的模型。
其中,具身推理模型 Gemini Robotics-ER 1.5就像机器人的高层大脑,负责统筹活动。它在物理环境中的规划与逻辑决策上表现突出,具备最先进的空间理解能力,能以自然语言交互,能够估计自己的成功率和进度,还能原生调用工具,例如 Google 搜索,或使用第三方用户自定义的函数。
随后,Gemini Robotics-ER 1.5会将自然语言的逐步指令传递给Gemini Robotics 1.5,后者再利用其视觉和语言理解直接执行具体动作。据介绍,Gemini Robotics 1.5 还能在行动前进行思考,以更好地完成语义复杂的任务,甚至能用自然语言解释其思考过程,让决策更加透明。
ER 1.5 与 1.5 协同工作的框架图。来源:DeepMind
DeepMind 表示,这两个模型都构建在 Gemini 基础模型系列之上,并使用不同的数据集进行了微调,以便各自专注于特定角色。当结合在一起时,它们显著提升了机器人在更长任务和更复杂环境中的泛化能力。
理解环境的最强模型DeepMind 称,Gemini Robotics-ER 1.5是首个为具身推理优化的思维模型。它在多个学术和内部基准测试中达到了最先进水平,这些测试灵感来自可信测试者计划中的真实用例。
该模型在 15 项学术基准上进行了评估,包括 具身推理问答(ERQA)和Point-Bench,其性能涵盖了指向、图像问答和视频问答等任务。
ER 1.5 在 15 项学术测试中领先。来源:DeepMind
DeepMind 还展示了一组动态图拼贴,呈现了 Gemini Robotics-ER 1.5 的部分能力,包括物体检测与状态估计、分割掩码、指向、轨迹预测、任务进度估计和成功率检测。
ER 1.5 动态演示 GIF 拼贴。来源:DeepMind
在行动之前思考传统的视觉-语言-行动模型通常会把指令或语言计划直接翻译为机器人的动作。而 Gemini Robotics 1.5的独特之处在于,它能够在行动之前先进行思考。
这意味着,它可以生成内部的自然语言推理和分析序列,从而执行那些需要多步骤或更深语义理解的任务。
例如,在执行“按颜色分类我的衣物”这样的任务时,机器人会在多个层次上进行思考。首先,它理解“按颜色分类”意味着要把白色衣物放进白色的篮子,其他颜色放进黑色的篮子。接着,它会思考执行步骤,比如“捡起红色毛衣并放进黑色篮子”。最后,它会考虑动作细节,比如“把毛衣移近以便更容易拿起”。
在这种多层次的思维过程中,VLA 模型能够把长任务拆解为更短、更易执行的子任务。这帮助模型更好地泛化,解决新任务,并增强对环境变化的适应性。
【配图:机器人执行衣物分类任务的演示】
跨具身学习能力DeepMind 强调,机器人形态各异,拥有不同的传感能力和自由度,这使得“跨机器人迁移动作”一直是业界的难题。
Gemini Robotics 1.5展现出显著的跨具身学习能力。它能够把在一种机器人上学到的动作迁移到另一种机器人上,而无需对新形态进行专门化训练。这一突破加速了新行为的学习,让机器人变得更聪明、更实用。
例如,在 ALOHA 2机器人上训练的任务,可以直接在Apptronik 的人形机器人 Apollo和Franka 双臂机器人上运行,反之亦然。
安全与责任在释放具身 AI 潜力的同时,DeepMind 也在积极开发新的安全与对齐方法,确保智能体机器人能够负责任地部署在人类环境中。
据悉,责任与安全委员会(RSC)与负责任开发与创新团队(ReDI)正与机器人团队紧密合作,确保模型开发符合谷歌的 AI 原则。
Gemini Robotics 1.5实施了一种整体性的安全方法,通过高层语义推理来考虑行动前的安全问题,确保与人类的对话符合 Gemini 的安全政策,并在必要时触发低层安全子系统(如防碰撞)。
DeepMind 还发布了升级版 ASIMOV 基准,这是一个全面的数据集集合,用于评估和改进语义安全,具有更好的长尾覆盖、更完善的注释、新的安全问题类型以及新的视频模态。
在该基准的安全评估中,Gemini Robotics-ER 1.5展现了业界领先的性能,其思考能力显著提升了模型对语义安全的理解,并帮助其更好地遵循物理安全约束。
通向物理世界的 AGI 里程碑DeepMind 总结称,Gemini Robotics 1.5标志着通向物理世界 AGI 的一个重要里程碑。通过引入智能体能力,他们正在从仅仅对指令反应的模型,迈向能够真正推理、规划、主动使用工具并具备泛化能力的系统。
这是构建能够在物理世界中展现智慧和灵巧的机器人的基础性一步。未来,这些机器人将更有用,并更深入地融入人类的生活。
DeepMind 表示,他们非常期待能与更广泛的研究社区继续推进这一工作,并希望看到全球机器人社区利用最新的 Gemini Robotics-ER 模型创造出新的成果。
来源:
[1]https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
来源:ZFinance