全球首个会思考的机器人!谷歌DeepMind解锁具身推理新维度

B站影视 欧美电影 2025-09-28 18:15 2

摘要:2025年9月,谷歌DeepMind扔出个“大杀器”,GeminiRobotics1.5系列。

2025年9月,谷歌DeepMind扔出个“大杀器”,GeminiRobotics1.5系列。

这东西不是普通机器人模型,是全球首个能“先思考、再行动”的推理具身模型。

以前机器人顶多算“听话的工具”,现在这套模型直接给机器人装了“脑子”,能自己拆任务、自己修正动作,说实话,这步子迈得比我预想的大不少。

这套模型分俩部分,GR1.5和GR-ER1.5。

你可以理解成一个“动手的”,一个“动脑的”。

GR1.5负责执行,比如折纸、解袋子,甚至帮你从衣柜拿雨衣打包,这些精细动作它都能搞定。

GR-ER1.5才是关键,它是全球首个具身推理模型,能把复杂任务拆成小步骤。

比如你让它按北京垃圾分类标准分拣垃圾,它不会直接下手。

它会先在“心里”生成一段“独白”,大概是“第一步,确认北京垃圾分类规则,第二步,区分可回收和厨余,第三步,分类投放”。

这种显性思考,以前的机器人根本做不到。

本来想,机器人能干活就行,哪用得着“想那么多”?但后来发现,有了这个步骤,不仅任务成功率高了,咱们也能看懂它为啥这么做,不跟以前似的,它做错了都不知道问题出在哪。

以前的机器人像“只会照本宣科的学徒”,指令说一步做一步。

现在有了这俩模型配合,它能处理“按天气打包行李”这种需要判断的任务。

比如知道某地要下雨,就会主动把雨衣塞进箱子,这逻辑跟人处理事差不多了。

更牛的是,这模型能跨硬件用。

啥意思?就是在低成本双臂机器人ALOHA上学的“叠衣服”技能,不用重新训练,直接就能用到工业级的Franka上,甚至人形机器人Apollo也能直接用。

说实话,以前机器人训练特别麻烦。

一个机器人一个样,给ALOHA写的程序,Franka根本用不了,得重新弄好几个月。

现在有了MotionTransfer机制,问题解决了。

这个机制把不同机器人的动作,都翻译成一种“通用语言”。

比如“抓握”这个动作,不管是机械臂还是人形手,在模型眼里都是一个意思。

如此看来,以后机器人行业可能不用再为每个硬件单独开发程序了,能省不少事。

谷歌DeepMind机器人部门负责人说,现在的机器人部署太费劲,往往几个月才弄好一个只能干单一活的单元。

但GR1.5系列不一样,它在一个机器人上学的本事,能直接“转学”到另一个上。

毫无疑问,这对工业生产来说太重要了,以前换个机器人就得重新来,现在直接“无缝衔接”。

光会思考、能跨硬件还不够,实际用的时候得靠谱。

这模型在执行任务时,能自己检查成没成功,失败了还会改。

比如抓水瓶没抓住,它不会死磕,马上换另一只手试,反应还挺快。

我之前担心,机器人能力强了会不会更危险?比如碰到插座、碰到人啥的。

但后来发现,它能识别潜在风险。

在ASIMOV-2.0安全测试里,它对危险动作的识别率很高,还能触发保护机制。

比如要把水杯举到插座旁边,它会停下来,不会硬来。

另外,它的思考过程能看见。

你能知道它下一步要干嘛,为啥这么干。

这一点特别好,以前机器人出错了,你都搞不清它咋想的,现在跟“开了透明模式”似的,心里有数。

而且在230项任务测试里,它在指令理解、动作适配这些方面,比GPT-5表现还好,完成任务的稳定性确实不错。

现在GR-ER1.5已经能通过GoogleAIStudio的API用了,但GR1.5还只给少数合作伙伴用。

老实讲,我觉得这模型最大的意义,是让机器人从“单项工具”往“通用助手”靠了。

以前机器人只能干固定活,现在能理解复杂需求、自己规划步骤,以后不管是工厂生产,还是家里做家务、医院帮着康复,可能都用得上。

虽然现在还没完全开放,但这方向肯定是对的,等以后普及了,咱们的生活说不定真能省不少事。

来源:奇史怪谈

相关推荐