摘要:谷歌 DeepMind 宣布升级其机器人 AI 模型组合,推出 Gemini Robotics 1.5 与 Gemini Robotics‑ER 1.5,两者协同为机器人带来多步推理与执行能力,支持在真实环境中“先思考、再行动”的代理式工作流。新系统可理解视觉
编译/前方智能
谷歌 DeepMind 宣布升级其机器人 AI 模型组合,推出 Gemini Robotics 1.5 与 Gemini Robotics‑ER 1.5,两者协同为机器人带来多步推理与执行能力,支持在真实环境中“先思考、再行动”的代理式工作流。新系统可理解视觉场景、规划任务步骤、调用数字工具(如 Google Search),并将高层计划转化为具体的动作指令,从而提升在复杂、跨场景任务中的泛化与稳健性。
根据 DeepMind 的介绍,Gemini Robotics‑ER 1.5 作为具身推理模型,负责环境理解与多步骤规划,可原生调用外部工具以补充知识;其在体感空间理解与问答类学术基准上取得了综合领先表现。Gemini Robotics 1.5 则是视觉‑语言‑动作模型,直接把视觉与语言输入转为机器人运动指令,并在执行前进行内部自然语言推理,拆解长任务为可完成的短段落,提升任务完成率与透明度。
在能力演示中,系统可完成按颜色分拣衣物、依据所在地的回收规范进行垃圾分类,以及结合网络天气信息为出行打包,并能对任务进度与成功率进行评估。值得一提的是,模型支持跨具身形态的技能迁移:在 ALOHA 2 等双臂平台上学习的动作可“无须专门调优”转移到 Franka 双臂与 Apptronik 的 Apollo 人形机器人上,显著缩短跨设备部署周期。
就可用性而言,Gemini Robotics‑ER 1.5 已通过 Gemini API 在 Google AI Studio 面向开发者开放;真正驱动机器人运动的 Gemini Robotics 1.5 当前仅向部分合作伙伴提供。DeepMind 同步强调安全与责任治理,引用 ASIMOV 基准升级与 Gemini 安全政策,主张在高层语义推理与低层避碰等子系统协作下,提升语义与物理安全约束的遵循。
将互联网规模数据与具身推理的结合,有望推动机器人迈向更通用的“代理式”能力,但也需警惕将“思考”与生成式模拟推理混淆。
总体来看,Gemini Robotics 1.5 与 Robotics‑ER 1.5 标志着将 AGI 能力延伸到物理世界的一次重要里程碑,为研究与产业应用打开新的可能。
免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。
来源:前方智能AI