摘要:在2025年9月25日,谷歌DeepMind发布了Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款AI模型,旨在赋予机器人前所未有的推理、规划和学习能力。这两款模型基于Gemini 2.0架构,突破了传统机器人依赖预编程
在2025年9月25日,谷歌DeepMind发布了Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款AI模型,旨在赋予机器人前所未有的推理、规划和学习能力。这两款模型基于Gemini 2.0架构,突破了传统机器人依赖预编程的局限,使其能够动态适应复杂任务和未知环境。行业专家认为,这一突破标志着机器人从单一任务执行者向通用智能助手的转型,将在医疗、工业和个人服务等领域掀起波澜,为AI驱动的物理世界交互开辟新篇章。
谷歌DeepMind发布了Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款AI模型
Gemini Robotics 1.5是一款视觉-语言-行动(VLA)模型,整合了文本、图像、音频和视频处理能力,支持机器人直接执行物理任务,如折叠纸张、装箱行李或准备沙拉。其核心在于多模态推理,能够理解自然语言指令并将其转化为精确的动作序列。行业专家指出,该模型通过训练于双臂机器人平台ALOHA 2的数据,实现了高精度操作,仅需50-100次示范即可适应新任务,相较传统机器人编程效率提升10倍。
Gemini Robotics-ER 1.5专注于具身推理(Embodied Reasoning),通过结合谷歌搜索等数字工具,增强机器人在复杂环境中的决策能力。例如,在打包午餐盒时,ER 1.5能分析物体位置、规划抓取顺序并动态调整策略。DeepMind机器人负责人Carolina Parada表示,这一双模型架构模仿人类“先思考后行动”的方式,使机器人能够多步推理,应对突发变化。行业专家认为,ER模型的Web增强推理能力标志着机器人从被动执行向主动问题解决的转变。
Gemini Robotics On-Device版本可在无网络连接的环境下运行,功耗低至1.5W,适合实时操作和偏远场景,如太空探索或工厂自动化。其跨机器人平台的通用性令人瞩目:从双臂ALOHA 2到Apptronik的Apollo人形机器人,知识迁移技术使技能可无缝复用到不同硬件上。行业专家强调,这一泛化能力降低了机器人部署成本,推动了从定制化向模块化的行业转型。
Gemini Robotics 1.5基于Gemini 2.0的多模态框架,算力达50 TOPS,支持实时处理视觉和语言输入。其NPU(神经处理单元)优化了低功耗推理,延迟低至毫秒级,适合动态环境。行业专家指出,与云端AI相比,离线运行的On-Device模型解决了网络依赖问题,增强了隐私保护和操作鲁棒性。然而,复杂任务仍需高算力硬件支持,未来需搭配2nm工艺芯片以进一步降低功耗。
Gemini Robotics-ER 1.5通过Asimov数据集(受阿西莫夫机器人三定律启发)强化了安全机制,集成碰撞检测和力限制功能,确保机器人操作安全。例如,在医疗场景中,机器人可避免对患者造成意外伤害。行业专家认为,这种分层安全设计是AI机器人规模化部署的前提,但需进一步测试以应对极端场景,如高密度人群环境。
模型的知识迁移能力是其核心亮点。通过强化学习和少样本学习,机器人可在50次示范内掌握新任务,如从折叠衣服到打开瓶盖。行业专家预测,这种快速适应性将推动机器人从单一工业应用向多样化场景扩展,如家庭助理或物流分拣,但需解决数据隐私问题,确保用户数据的本地化处理。
全球机器人市场预计2025年增长28%,规模达670亿美元,其中通用机器人占比将从15%升至25%。Gemini Robotics的推出顺应了这一趋势,其跨平台适配性降低了开发成本,吸引了Apptronik、Boston Dynamics等合作伙伴。行业专家认为,谷歌的开放SDK和“可信测试者”计划将加速开发者生态建设,类似ChatGPT对LLM的推动效应,可能引发机器人行业的“ChatGPT时刻”。
谷歌DeepMind的Gemini Robotics面临英伟达Isaac Groot N1和特斯拉Optimus的竞争。英伟达的模型强调人形机器人高速推理,而特斯拉聚焦生产力场景。谷歌的优势在于多模态AI和离线运行能力,适合多样化应用,但行业专家警告,其高算力需求可能推高设备成本,初期或局限于高端市场。苹果和亚马逊的AR眼镜项目也可能分流AI资源,间接影响机器人生态发展。
亚太地区占机器人市场营收40%,我国厂商如优必选正加速AI机器人研发,预计2026年推出类似Gemini的本地化模型。伦理与隐私问题仍是行业痛点,谷歌的Asimov安全框架虽领先,但需透明的数据治理机制以赢得用户信任。行业专家建议,厂商需与监管机构合作,建立全球AI机器人安全标准,避免技术滥用风险。
谷歌DeepMind的Gemini Robotics 1.5与ER 1.5通过多模态AI、离线运行和知识迁移技术,将机器人从机械执行推向智能交互的巅峰。这不仅是技术突破,更是通用机器人市场的催化剂,预示着AI与物理世界的深度融合。面对英伟达和特斯拉的竞争,谷歌凭借开放生态和安全设计占据先机,但需解决成本与隐私挑战。行业专家坚信,Gemini Robotics将加速机器人从工厂走向家庭,2026年将成为AI驱动机器人普及的关键节点,重塑人类与技术的交互未来。
来源:万物云联网