科幻！谷歌放出Gemini Robotics-ER 1.5：机器人有了真正的思考力

摘要：谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型，它将作为机器人的高级推理大脑

谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型，它将作为机器人的高级推理大脑

Gemini Robotics-ER 1.5（简称 Gemini Robotics-Embodied Reasoning）是一种视觉-语言模型 (VLM)，可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型，能够推理物理世界、原生调用工具，并规划逻辑步骤来完成任务

虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似，但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题：解读复杂的视觉数据、执行空间推理，以及根据自然语言命令规划行动

在操作方面，Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API，使模型能够编排这些行为，以便机器人完成长时程任务

借助 Gemini Robotics-ER 1.5，可以构建以下机器人应用：

让人们能够使用自然语言分配复杂的任务，从而使机器人更易于使用

通过使机器人能够推理、适应和响应开放式环境中的变化，提高机器人的自主性

Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型：定位和识别对象

1.准确地指向并定义环境中各种项目的边界框。了解对象关系

2.推理空间布局和环境背景信息，以便做出明智的决策。规划抓取和轨迹

3.生成用于操纵物体的抓取点和轨迹。解读动态场景

4.分析视频帧，以跟踪对象并了解一段时间内的动作。编排长时程任务

5.将自然语言命令分解为一系列逻辑子任务，并对现有的机器人行为进行函数调用。人机交互

6.通过文本或语音理解以自然语言给出的指令

Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验：

启动 Google AI Studio 来实验该模型。阅读开发者文档获取完整的快速入门和API参考

https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn

官方的 Colab notebook 查看实际应用案例

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch

完整技术报告：

这个模型专为那些对机器人来说极具挑战性的任务而设计。

想象一下，你对一个机器人说：“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”

要完成这个任务，机器人需要：

1.上网查找本地的垃圾分类指南。

2.理解眼前的各种物品。

3.根据本地规则规划出分类方法。

4.执行所有步骤，完成投放。

像这样的日常任务，大多需要结合上下文信息并分多步才能完成。

Gemini Robotics-ER 1.5正是首个为这种具身推理（embodied reasoning）而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平