科幻!谷歌放出Gemini Robotics-ER 1.5:机器人有了真正的思考力

B站影视 港台电影 2025-09-27 09:04 1

摘要:谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的高级推理大脑

谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的高级推理大脑

Gemini Robotics-ER 1.5(简称 Gemini Robotics-Embodied Reasoning)是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型,能够推理物理世界、原生调用工具,并规划逻辑步骤来完成任务

虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似,但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题:解读复杂的视觉数据、执行空间推理,以及根据自然语言命令规划行动

在操作方面,Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API,使模型能够编排这些行为,以便机器人完成长时程任务

借助 Gemini Robotics-ER 1.5,可以构建以下机器人应用:

让人们能够使用自然语言分配复杂的任务,从而使机器人更易于使用

通过使机器人能够推理、适应和响应开放式环境中的变化,提高机器人的自主性

Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型:定位和识别对象

1.准确地指向并定义环境中各种项目的边界框。了解对象关系

2.推理空间布局和环境背景信息,以便做出明智的决策。规划抓取和轨迹

3.生成用于操纵物体的抓取点和轨迹。解读动态场景

4.分析视频帧,以跟踪对象并了解一段时间内的动作。编排长时程任务

5.将自然语言命令分解为一系列逻辑子任务,并对现有的机器人行为进行函数调用。人机交互

6.通过文本或语音理解以自然语言给出的指令

Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验:

启动 Google AI Studio 来实验该模型。阅读开发者文档获取完整的快速入门和API参考

https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn

官方的 Colab notebook 查看实际应用案例

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch

完整技术报告:

这个模型专为那些对机器人来说极具挑战性的任务而设计。

想象一下,你对一个机器人说:“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”

要完成这个任务,机器人需要:

1.上网查找本地的垃圾分类指南。

2.理解眼前的各种物品。

3.根据本地规则规划出分类方法。

4.执行所有步骤,完成投放。

像这样的日常任务,大多需要结合上下文信息并分多步才能完成。

Gemini Robotics-ER 1.5正是首个为这种具身推理(embodied reasoning)而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平

Gemini Robotics-ER 1.5有哪些新能力?

Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调,并引入了多项新功能:

快速强大的空间推理:以Gemini Flash模型的低延迟,实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点,这些坐标点基于对物品尺寸、重量和功能可供性的推理,从而支持如“指出所有你能拿起的物体”这类指令,实现精确、快速的交互

协调高级智能体行为:利用先进的空间和时间推理、规划和成功检测能力,可靠地执行长周期任务循环(例如,“按照这张照片重新整理我的书桌”)。它还能原生调用谷歌搜索和任何第三方自定义函数(例如,“根据本地规定将垃圾分类”)

灵活的思考预算:开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,对于像规划多步组装这样的复杂任务,你可以让模型“思考更长时间”;而对于探测或指向物体等需要快速反应的任务,则可以要求更快的响应

改进的安全过滤器:模型在语义安全方面进行了改进,能更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人的有效载荷能力),让开发者可以更自信地进行构建

智能大脑

你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令,对长周期任务进行推理,并协调复杂的行为。

当收到一个像“把桌子收拾干净”这样的复杂请求时,Gemini Robotics-ER 1.5能将其分解成一个计划,并调用正确的工具来执行,无论是机器人的硬件API、专门的抓取模型,还是用于运动控制的视觉-语言-行为模型(VLA)。

高级空间理解能力

为了与物理世界互动,机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调,能够生成高质量的空间结果,为物体提供精确的2D坐标点

在指向精度方面,Gemini Robotics-ER 1.5是目前最精确的视觉语言模型

例如,在2D坐标点生成任务中,给定一张厨房场景的图片,模型可以提供每个物品的位置

提示:

值得注意的是,提示要求模型只标记图中出现的物品,这可以防止模型产生幻觉(比如为不存在的“独角兽”生成坐标),使其始终基于视觉现实

时间推理能力

真正的时空推理不仅要定位物体,还要理解物体与行为之间随时间展开的关系。

Gemini Robotics-ER 1.5通过处理视频来理解物理世界中的因果关系。

例如,在一个视频中,机械臂先将一支绿色记号笔放入木盘,再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时,它给出了完全正确的答案

提示:

响应:

模型甚至可以根据要求,对特定时间段(如第15秒到22秒)进行更细致的逐秒分解,输出结果在时间上非常精确

基于可操作性推理来协调长周期任务,

当启用思考功能时,模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子,展示了模型如何理解完成任务所需的“如何做”和“在哪里做”

通过结合规划和空间定位,模型可以生成“空间锚定”计划,将文本指令与物理世界中的具体位置和动作联系起来

灵活的思考预算

下图展示了调整Gemini Robotics-ER 1.5模型思考预算对延迟和性能的影响

模型的性能随着思考token预算的增加而提升。对于像物体检测这样的简单空间理解任务,很小的预算就能达到高性能;而更复杂的推理任务则需要更大的预算

这使得开发者可以在需要低延迟响应的任务和需要高精度结果的挑战性任务之间取得平衡。开发者可以通过请求中的thinking_config选项来设置思考预算,甚至禁用它

参考:

来源:科技透视镜

相关推荐