双核驱动太牛!GeminiRobotics双模型分工,机器人决策动作样样行

B站影视 内地电影 2025-09-27 20:31 1

摘要:2025年9月26日,谷歌DeepMind扔出了一枚“技术炸弹”——全新GeminiRobotics1.5系列机器人模型正式发布。

2025年9月26日,谷歌DeepMind扔出了一枚“技术炸弹”——全新GeminiRobotics1.5系列机器人模型正式发布。

这玩意儿不是给机器人加个新零件,而是直接换了个“超级大脑”:不仅思考能力做到行业顶尖(SOTA),还能让不同机器人互相“抄作业”,跨物种学习技能。这波操作,直接把通用机器人的落地门槛拉低了一大截。

1、

别以为谷歌只搞了一个模型,这次是“双核驱动”——GeminiRobotics1.5和GeminiRobotics-ER1.5分工明确,像军师和猛将一样配合干活。

GeminiRobotics1.5是机器人的“小脑+手脚控制器”,专业名叫VLA(视觉-语言-动作)模型。

它的活儿很具体:眼睛看到东西、耳朵(接收指令)听到话,它得立刻翻译成机械臂、轮子能懂的动作指令。

更厉害的是GeminiRobotics-ER1.5,这才是真正的“决策大脑”,属于VLM(视觉语言模型)。

它负责动脑子:理解复杂任务、规划步骤,甚至能调用谷歌搜索查资料。就像军师排兵布阵,遇到没见过的情况,它会先推理分析,再给“小脑”下达行动指令。

举个直观的例子:让机器人按旧金山标准垃圾分类,先是“大脑”ER1.5上网查规则,搞清楚“果皮进绿桶、塑料瓶进蓝桶”,然后制定步骤:先拿物品、再识别种类、最后投放。

2、

接着“小脑”1.5接手,控制机械臂完成每一个动作。

要是果皮掉地上了,“大脑”还会立刻调整计划,让“小脑”先捡起来再分类,不会像以前的机器人那样直接“卡bug”。

以前的机器人干活像“瞎蒙”,动作对不对全看运气,出问题了根本不知道它咋想的。

但GeminiRobotics系列加了“思维链机制”,相当于让机器人“边干活边报菜名”,每一步决策都能展示出来。

比如做咖啡,它会先在系统里默念:第一步拿杯子,第二步接热水,第三步加咖啡粉,这种透明化的思考过程,不仅方便人类排查问题,更让它能应对突发状况。

谷歌测试时故意把工具放乱,机器人居然能临时调整步骤,比老款模型的任务成功率高了37%。

在行业公认的空间理解测试里,这颗“大脑”更是直接霸榜,能精准判断物体位置关系、测算移动路径,得分远超特斯拉FSD的机器人分支模型和OpenAI的相关方案,妥妥的行业顶尖水平(SOTA)。

以前的机器人是“偏科生”:Aloha机器人学会开抽屉,人形机器人Apollo想干同样的活,得重新训练几个月,因为两者的机械结构、传感器完全不一样,就像用筷子的高手突然换勺子,根本不习惯。

3、

但GeminiRobotics1.5的“动作迁移(MT)机制”解决了这个难题。

它能从不同机器人(比如单臂的ALOHA、双臂的Franka、人形的Apollo)的训练数据里提炼共性,把技能变成“通用模板”。

就像有人把“开抽屉”的核心原理总结出来,不管用手、用夹子还是用机械臂,都能照着做。

谷歌做过一个夸张的测试:让Aloha在衣柜场景练开门、拿衣服,从没接触过衣柜的Apollo机器人,直接套用Aloha的经验,第一次就成功完成了整套动作,零额外训练。

这意味着物流机器人学会的分拣技能,零售机器人能直接“抄作业”,工厂不用为每种机器人单独开发程序,成本能降一半以上。

这种“跨物种学习”能力,其实是靠多模态数据训练堆出来的——谷歌喂给模型的不仅有图片、文字,还有上千种机器人的传感器数据和动作记录,相当于让它看遍了“机器人界的所有武功秘籍”,自然能举一反三。

4、

别觉得这是实验室里的“黑科技”,现在已经能找到实际应用的影子了。

在家庭场景,配备新模型的服务机器人能听懂“把阳台的衣服叠好放衣柜第三层”这种复杂指令。

“大脑”会先规划路线,避开客厅的沙发,再判断衣服材质调整夹取力度,叠好后还会核对衣柜层数,比以前只会“傻搬东西”的机器人靠谱多了。

工业车间里更有用,以前换生产线,机器人得停工一周重新编程;现在只要让老机器人演示一遍新工序,其他机器人通过“动作迁移”就能快速上手,生产线停工时间能压缩到几小时。

甚至在危险场景,比如核电厂巡检,机器人遇到未知故障时,“大脑”能立刻调用数据库查类似案例,制定排查方案,不用人类冒险进入高辐射区域。

谷歌还同步升级了机器人安全基准测试ASIMOV,确保这些“聪明的机器人”不会乱来,比如指令模糊时会主动询问,遇到障碍物会优先避让,避免像早期机器人那样“为完成任务撞坏东西”。

这波技术突破,其实戳中了机器人行业多年的“痛点”:以前机器人都是“专用工具”,就像只能切菜的刀、只能炒菜的锅,想凑一套厨房工具得花大价钱。

而GeminiRobotics1.5系列要做的,是一把“万能瑞士军刀”。

5、

但也别太乐观,现在还有两道坎要跨。

一是算力成本,要支撑这么强的思考和迁移能力,机器人得带更强大的芯片,目前单机成本还比较高。

二是极端场景适应性,比如在暴雨、粉尘环境下,传感器数据可能不准,“大脑”的决策精度会打折扣。

不过总的来说,谷歌这步棋走得很关键,就像ChatGPT打开了通用AI的大门,GeminiRobotics1.5可能会成为通用机器人的“操作系统级底座”。

宇树科技已经跟进,他们的UnifoLM-WMA-0模型也在做跨机器人适配,看来“通用机器人竞赛”已经打响。

未来3-5年,我们可能会看到:家里的服务机器人能兼顾扫地、做饭、照顾老人;工厂里的机器人今天组装手机、明天就能切换到组装汽车;救灾机器人能快速学会新设备的操作方法,第一时间进入灾区救援。

谷歌这次发布的不是一个简单的模型,而是给机器人装上了“进化的翅膀”。

当机器人能自己思考、互相学习,它们就不再是冰冷的机器,而是能真正融入人类生活的“智能伙伴”。

这场由“超级大脑”引发的变革,才刚刚开始。

来源:笔杆先生

相关推荐