摘要:DeepMind的Gemini Robotics模型赋予了机器规划、推理甚至在行动前在线查询回收规则的能力。谷歌的新型人工智能不再遵循固定程序,而是能让机器人自主适应、解决问题,并在彼此之间传递技能。从打包行李箱到垃圾分类,由Gemini-ER 1.5驱动的机
DeepMind更新后的Gemini Robotics模型标志着机器人从单任务机器向能够规划多步骤任务的机器人转变。
谷歌深度思维本周推出了两款人工智能模型,旨在让机器人变得比以往任何时候都更智能。更新后的Gemini Robotics 1.5及其配套的Gemini Robotics-ER 1.5不再专注于听从指令,而是让机器人思考问题、上网搜索信息,并在不同的机器人智能体之间传递技能。
谷歌表示,这些模型标志着“一个基础性的进步,它们能够凭借智能和灵巧来应对物理世界的复杂性”。
谷歌在公告中表示:“Gemini Robotics 1.5是在物理世界中解决通用人工智能(AGI)方面的一个重要里程碑。通过引入智能体能力,我们正超越那些只能对指令做出反应的模型,打造真正能够推理、规划、主动使用工具并具有泛化能力的系统。”
而“泛化”这个术语很重要,因为模型在这方面存在困难。
由这些模型驱动的机器人现在能够处理各种任务,比如按颜色分拣衣物、根据在网上查到的天气预报整理行李箱,或者查看当地的回收规则以正确丢弃垃圾。作为人类,你可能会说:“哦,那又怎样?”但要做到这些,机器需要一种名为“泛化”的技能——也就是将知识应用于新情况的能力。
机器人——以及一般意义上的算法——通常在这方面存在困难。例如,如果你教一个模型叠裤子,它就无法叠T恤,除非工程师提前对每一个步骤进行编程。
新模型改变了这一点。它们能够捕捉线索、了解环境、做出合理假设,并执行那些过去机器难以完成——或者至少是极其困难——的多步骤任务。
但更好并不意味着完美。例如,在其中一项实验中,研究团队向机器人展示了一组物品,并要求它们将这些物品扔进正确的垃圾桶。机器人会用摄像头进行视觉识别,在线查阅旧金山最新的回收指南,然后自行将物品放到理想的位置,就像当地的人类一样。
这一过程结合了在线搜索、视觉感知和逐步规划,能够做出具有情境感知的决策,这是早期机器人无法实现的。记录的成功率在20%到40%之间,虽然不算理想,但对于一个以前无法理解这些细微差别的模型来说,已是令人惊讶的结果。
这两个模型分工合作。Gemini Robotics-ER 1.5 充当大脑的角色,负责确定需要做什么并制定详细的步骤计划。它在需要信息时可以调用谷歌搜索。一旦制定好计划,它就会将自然语言指令传递给 Gemini Robotics 1.5,由后者负责实际的物理动作。
从技术角度来讲,全新的Gemini Robotics 1.5是一个视觉-语言-动作(VLA)模型,它能将视觉信息和指令转化为运动指令,而全新的Gemini Robotics-ER 1.5则是一个视觉-语言模型(VLM)
例如,当机器人分拣衣物时,它会在内部通过一连串的思考来推理完成这项任务:理解“按颜色分类”意味着白色衣物放入一个篮子,彩色衣物放入另一个篮子,然后分解拿起每件衣物所需的具体动作。机器人能用简单的英语解释其推理过程,从而减少了其决策的神秘感。
谷歌首席执行官桑达尔·皮查伊在X平台上发表了看法,他指出这些新模型将使机器人能够更好地推理、提前规划、使用搜索等数字工具,并将从一种机器人身上学到的知识迁移到另一种机器人上。他称这是谷歌“朝着真正有用的通用机器人迈出的下一大步”。
全新的Gemini Robotics 1.5模型将使机器人能够更好地推理、提前规划、使用搜索等数字工具,并将从一种机器人身上学到的知识迁移到另一种机器人上。这是我们在打造真正有用的通用机器人道路上迈出的重要一步——你可以看到机器人是如何推理的……
此次发布让谷歌与特斯拉、Figure AI和波士顿动力等开发商一同受到关注,不过每家公司都采取了不同的策略。特斯拉专注于为其工厂进行大规模生产,埃隆·马斯克承诺到2026年将生产数千台。波士顿动力则继续凭借其会后空翻的Atlas机器人突破机器人运动能力的极限。与此同时,谷歌押注于无需特定编程就能让机器人适应任何情况的人工智能。
时机至关重要。美国机器人公司正大力倡导一项国家机器人战略,其中包括成立一个专注于推动该行业发展的联邦办公室,而此时中国正将人工智能和智能机器人列为国家重点发展领域。总部位于德国的国际机器人联合会的数据显示,中国是全球最大的工厂及其他工业环境用机器人市场,2023年约有180万台机器人在运行。
DeepMind的方法与传统的机器人编程不同,在传统编程中,工程师会精心编写每一个动作的代码。相反,这些模型通过演示学习,并且能够实时适应。如果物体从机器人的手中滑落,或者有人在任务进行中移动了某些东西,机器人都能毫不迟疑地做出调整。
这些模型基于深度思维(DeepMind)3月份的早期研究,当时机器人只能处理单一任务,比如拉开拉链或折叠纸张。如今,它们正着手处理连许多人类都会感到棘手的一系列任务——例如查看天气预报后为旅行打包合适的行李。
对于想要进行试验的开发者,可用性方面采用了一种分拆策略。Gemini Robotics-ER 1.5已于周四通过Google AI Studio中的Gemini API推出,这意味着任何开发者都可以开始使用该推理模型进行构建。而行动模型Gemini Robotics 1.5仍仅限“精选”合作伙伴使用。
来源:任夏