摘要:据谷歌DeepMind团队9月25日发布的博文,其最新推出的Gemini Robotics 1.5系列模型首次让机器人具备“感知-规划-思考-行动”的完整能力链。这一突破并非简单升级,而是试图解决机器人领域长期存在的“硬伤”——如何让机器在不同形态、不同场景中
据谷歌DeepMind团队9月25日发布的博文,其最新推出的Gemini Robotics 1.5系列模型首次让机器人具备“感知-规划-思考-行动”的完整能力链。这一突破并非简单升级,而是试图解决机器人领域长期存在的“硬伤”——如何让机器在不同形态、不同场景中像人一样自主决策。
一、机器人学会“三思而后行”,模糊指令难不倒
新模型的核心突破在于“思考后行动”机制。与传统机器人仅能执行预设指令不同,Gemini Robotics 1.5能在行动前生成自然语言推理序列。
例如,面对“整理客厅”的模糊指令,它会先分解任务(识别杂物、规划动线),再调动机械臂执行。在演示中,机器人不仅按旧金山标准完成垃圾分类,还能查询伦敦天气后主动将雨伞装入行李包。
这种能力依赖双模型协作:Gemini Robotics-ER 1.5负责环境感知与规划(如调用谷歌搜索获取实时信息),Gemini Robotics 1.5则负责将指令转化为具体动作。
二、跨形态学习破局“硬件孤岛”,一个模型适配多类机器人
业界长期面临“不同机器人需定制不同模型”的难题。谷歌此次通过跨具身学习技术,让模型无视硬件差异实现技能迁移。
例如,Aloha机械臂掌握的开门技能可直接迁移至人形机器人Apollo,无需重新训练。这一特性有望降低机器人开发成本。
谷歌DeepMind工程师Kanishka Rao透露:“单一模型可控制机械臂、人形机器人等不同设备,甚至让机器人互相学习经验。” 这类似于安卓系统兼容不同手机硬件,谷歌或欲打造“机器人界的Android”。
三、现实挑战仍存,安全与精度是关键门槛
尽管技术亮眼,但机器人规模化落地仍面临两大挑战。
一是动作精度问题:例如折叠衣物、梳理线缆等柔性物体操作成功率仍低于人类水平。
二是安全机制:虽然模型通过ASIMOV安全基准测试,可在风险操作前自动暂停(如检测到人类靠近时停止抓取),但现实环境的复杂性远超实验室。
此外,模型对算力要求较高,当前需依赖高性能GPU,难以在低成本设备上部署。
谷歌此次更新,揭示了AI竞争正从“算力竞赛”转向“物理交互智能”的实战阶段。当机器人开始自主利用网络工具、跨设备学习,我们是否需重新定义人机协作的边界?
来源:F知科技