摘要:近日,北京银河通用机器人有限公司(下称“银河通用”)再次引发关注。天奇自动化工程股份有限公司(下称“天奇股份”)发布公告称,其与银河通用签署《合资公司投资协议》,双方拟出资设立合资公司天奇银河机器人有限公司(暂定名,以工商核准为准),整合双方优势及资源,就具身
合成数据才是真正能够带领具身智能进入泛化、实现通用的基石性数据。
文|闫佳佳
近日,北京银河通用机器人有限公司(下称“银河通用”)再次引发关注。天奇自动化工程股份有限公司(下称“天奇股份”)发布公告称,其与银河通用签署《合资公司投资协议》,双方拟出资设立合资公司天奇银河机器人有限公司(暂定名,以工商核准为准),整合双方优势及资源,就具身智能大模型及具身智能机器人在汽车制造产业相关领域规模化应用方面展开战略合作。
银河通用成立于2023年5月,创始人王鹤本科毕业于清华大学电子系、斯坦福大学博士,现担任北京大学前沿计算研究中心助理教授、博士生导师。2024年6月,银河通用推出了第一代产品Galbot G1,开始在药店等场景进行商业化服务。
据悉,银河通用凭借其创新的合成数据驱动技术和强大的多模态感知大模型,打造了这款能够在现实环境中灵活应对各种情况的智能机器人。天奇股份方面表示,与银河通用深度合作,将利用银河通用在基础大模型及泛化能力方面的核心技术优势,重点推进大模型在汽车制造场景的研发应用,打造智能工业解决方案。后续视双方合作及市场需求,合资公司将逐步开展汽车制造产业细分场景的专用具身智能算法研发,打造适应专用场景的机器人产品并实现规模化生产。
此外,银河通用还与美团达成战略合作,共同打造全球首个以人形机器人为核心的智慧药房解决方案,实现了24小时无人值守,进一步推动了智能机器人在商业领域的应用。
01
合成数据驱动具身智能革命
通用机器人技术正成为研究热点,通用机器人不仅需要理解人类的语言指令,还要能够根据视觉信号和传感器信息进行精确的操作。这背后的关键技术在于开发一个可以将这些输入直接转化为机器人关节控制信号的大模型。
萨摩耶云科技集团AI机器人产业研究员郑扬洋接受《商学院》杂志访谈时表示:“国内企业积极探索多模态大模型技术,通过融合视觉、语言、触觉等多模态信息,提升机器人的感知和理解能力。其中,高质量的多模态数据是训练自然语言交互模型的基础,但目前数据的获取和标注成本较高,且数据的多样性和完整性不足。此外,在复杂多变的现实环境中,模型的泛化能力仍需提升。”
高质量的数据对于训练有效的机器人模型至关重要,在机器人领域,其操作复杂度远超自动驾驶,需要处理多种物体和非平坦地形。而依赖人类遥控产生大量高质量数据效率低下,难以短时间内达到所需的千亿条数据量级。
以谷歌的技术为例,谷歌在Mountain Village(美国加州)办公室的厨房里采集了17个月,得到13万条数据,使得其机器人在谷歌的厨房里表现可以非常好。但一旦出了这个厨房,需要考察其环境泛化性,它的成功率就从97%骤降到30%左右。并且这种泛化是有选择的泛化,不是将其直接放到施工工地、非常嘈杂的后厨等场景中,它最大的问题就是数据采集没有办法做到Scalable(可扩展)。
面对数据和泛化能力的挑战,银河通用提出了一个创新的方法,通过合成数据驱动的具身多模态大模型解决这些问题。王鹤认为合成数据才是真正能够带领具身智能进入泛化、实现通用的基石性数据。
具体分析,二维视觉模型最大的特点是很难泛化。如果之前在黑色房间做训练,那么换成白色的房间,此前的训练就白费了。相较于传统二维视觉模型难以适应环境变化的问题,三维合成数据能够提供几何信息,不受光照、纹理或颜色的影响,为机器人操作提供了更稳定的基础。
采用三维合成数据更为有效,因为它不仅包含RGB图像的信息,还能捕捉物体的几何形态。例如,在抓取任务中,方形物体应夹持其两侧,而球形物体则需用手掌包裹。颜色虽然是视觉的一部分,但对于实际抓取操作来说往往是无关紧要的,甚至会增加干扰。通过使用三维几何模态(即点云:一种表示三维空间中物体或环境的方法,它由大量离散的点组成,每个点代表了三维空间中的一个坐标位置),可以专注于物体的形状特征,从而提高抓取的成功率和效率。
银河通用的技术路线是从二维视觉扩展到三维空间,利用双目红外传感器获取信号,并结合扩散模型精确学习深度信息。这一过程基于自研的千万场景合成大数据进行训练,覆盖了各种桌面布局、物体位置及其材质等复杂情况。
银河通用机器人的标志性成果是构建了三层级大模型系统:底层是硬件层,中间层是三维视觉合成数据驱动的技能层,上层是大模型层。研究团队还创建了世界上首个以零件为中心的数据集,覆盖了各种家用电器上的主要操作零部件,如旋转盖、推盖、转钮、按钮等。这些数据帮助机器人理解不同部件的工作原理,然后在仿真环境中进行训练。在仿真环境中,研究团队标注了这些零部件的位置和使用方法,让机器人能够学习如何操作它们,例如开门或抽屉。最后将三维视觉技术和语言模型(如GPT-4V)进行结合。GPT-4V这样的二维语言双模态大模型具备强大的推理和感知能力,但它无法直接获取物体在三维空间中的具体位置。因此,三维视觉模型提供了必要的补充,通过提供检测到的零部件数量、位置和形态信息给GPT-4V,使其能够生成具体的操作建议。
基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。
02
开放语义指令驱动的空间智能大模型系统
银河通用的开放语义泛化抓取能力,还得益于其研发的空间智能大模型系统。银河通用研发了世界上第一个支持开放语义指令六自由度取放的空间智能大模型系统Open6DOR。该大模型系统突破了只能控制物体放置位置的局限性,进一步实现了通过开放语义指令对于物体在目标位置摆放姿态的精细控制,为具身大模型商业化应用展开更大想象空间。
具体来看,该大模型系统做到了六自由度物体的自由摆放。六自由度指的是三自由度的平动(上下、左右、前后)、三自由度的转动(绕这三个轴的旋转)。六自由度操作不仅能指定物体放在哪里,还能控制它的朝向。
Open6DOR是一个大型仿真平台,里面包含2500个各种各样的任务。这些任务不用于训练,而是拿来检测具身多模态大模型能不能完成,这其中涉及200多个家中常用物体。
银河通用主要关注三类任务追踪,第一是仅位置追踪,比如把苹果放到勺子的右边、把瓶子放到锤子和改锥的中间;第二是仅旋转追踪,把锤子冲向左、易拉罐的标签朝左、把碗上下颠倒。而实际需要的是位置加旋转的任务执行,也就是六自由度追踪,比如把盒子放到锅和锅盖之间并让标签冲上,或者把卷尺放到中间且让它立起来,像这样的操作是桌面级操作里的关键性里程碑。谁能够率先完成2500个任务,就说明大模型已经初步具备了开放指令能力。
针对2500个任务,银河通用提出了一套方法。首先是抓取能力,银河通用研发出全球首个可以实现基于仿真合成数据训练任意材质的技术。通过海量的合成数据,解决了透明和反光物体的抓取难题。
王鹤表示,抓取不是简单的从上往下抓,它其实是六自由度的抓取,利用GPT-4V等大模型提取并理解用户给出的复杂指令,并通过Grounded-SAM等工具将指令中的物体分割出来,并且把其三维Bounding Box(边界框)输出给GPT-4V。GPT-4V理解这些物体现在的位置后,就会输出应该把物体放在哪个位置的指令。
那么如何解决旋转指令?GPT-4V无法直接输出旋转矩阵,没有能力直接输出机械臂左转上转横转分别多少度,它也并不知道转轴在哪里。银河通用采用了名为“Real-same-real”的流程,先将真实物体在仿真环境里面重建,再把重建的物体以Mesh形式进行自由落体,撒满整个仿真环境,让物体处于各种可能的位置。然后将这些位置交给GPT-4V评判并筛选出符合指令要求的最佳方案。
尽管银河通用尝试使用GPT-4V进行端到端的动作生成,但这种方法效率并不高。为了实现实时的动作生成,银河通用提出了用中间的三维视觉小模型进行动作快速生成,大模型进行规划的三层级思路。这比端到端的方法更快,更适合在线实时应用。虽然未来目标是实现端到端的视觉、语言和动作集成的大模型,但在此之前,需要先打好小模型的基础,因为大模型在单一任务上需要的数据量远大于小模型。
银河通用通过整合各种小模型(如抓取、放置、柔性物体操作到关节类物体操作等),旨在融汇到大模型里实现通用机器人。
王鹤在2024中国生成式AI大会上表示,具身智能的未来还是端到端,通过构建端到端视觉语言动作大模型,将迅速革命现有的机器人产业。目前,银河通用率先将多个小模型整合,成功打造出全球首个跨场景泛化的导航大模型Navid。该模型仅需图片输入就能让机器人在未见过的环境中根据指令行动,模拟人类走路、找路的方式,而无需依赖三维定位、建图或激光雷达等传统技术。
Navid模型的独特之处在于其训练数据完全来源于对真实世界的仿真合成,在不使用任何实际世界中的动作数据的情况下,实现了真实世界中的Zero-Shot跨场景泛化能力。具体来说,该模型基于51万个纯仿真合成的室内环境视频导航样本(包括动作规划和指令推理)以及76.3万个来自现实世界的不含导航任务和动作信息的视频数据进行训练。它仅依靠单视角摄像头采集的RGB视频流作为输入,避免了传统导航技术中使用三维点云、里程计、深度图等传感器信号所带来的sim2real gap问题。
高工机器人产业研究所所长卢瀚宸接受《商学院》杂志访谈时表示,机器人完全通过仿真合成数据训练而达到高性能,这种方法相比传统的物理数据采集而言具备高效率、低成本,可以无限量生产的优势,尤其适用于数据量较大的需求,同时具备提供高度的多样性和可控性。但是也存在缺点,比如数据质量可能依赖于生成算法的优劣,存在噪声或与真实数据分布差异过大的情况。
03
Galbot G1,开创具身智能新时代
在具身智能领域先进技术的支持下,银河通用推出了首款具身大模型机器人Galbot G1(以下简称G1),这款轮式、双臂、身体可折叠的人形机器人身高1.73米,设计亮点包括大工作空间、腿部折叠实现地面抓取以及腰部前倾扩大手部操作范围,使其向上摸高达2.4米。
G1于2024年6月在北京智源大会(BAAI)上首次亮相。在模拟的24小时无人值守便利店场景中,G1两天内累计工作18小时,服务超过800位顾客,完成了1000多项任务。
从技术亮点来看,G1配备了一个聪明的感知决策“大脑”和精准控制身体进行复杂操作的“小脑”。例如,在接到倒饮料的指令时,它能够自主询问主人所需的饮料类型,并在得到橙汁的选择后,准确地将橙汁倒入桌面的杯子中。即使遇到意外情况,如玻璃杯被打碎,G1也能迅速识别并清理随机形状的透明碎片,突破了必须对传统机器人预先设定物体材质、形状、光线条件的这一局限,展现出前所未有的泛化能力。
中关村物联网产业联盟副秘书长袁帅告诉《商学院》杂志,银河通用G1的泛化抓取技术是通过自研具身大模型、端到端导航大模型以及创新的物理仿真及渲染方法实现的。这些技术创新使得机器人能够直接泛化至真实世界,成功抓取各类复杂、未见过的物体。G1也展现了强大的感知、决策和执行能力。在感知层面,G1配备了先进的传感器和视觉系统,能够准确感知环境信息;在决策层面,其搭载了先进的AI算法,能够快速做出最优决策;在执行层面,G1拥有灵活的机械结构和强大的动力系统,能够精确执行各种任务。这些优势使得G1在智能家居、工业自动化等领域具有广泛的应用前景。
在场景落地方面,G1已经在药店中进行了商业化服务,它能够完成取货、送货、补货等工作,以取货为例,G1会自主进行三维场景重建并收集场景数据,消费者在图形界面或语音下单后,G1根据重建得到的3D语义地图找到相应商品位置,自主决策使用夹爪或者吸盘,精准拾取商品并放置到指定位置。
在工厂和车厂的应用中,G1在执行拆跺、料箱转运工作时,面对多层堆叠、紧密放置的料箱,G1会基于每个料箱所处位置,推理并给出不同的双臂抓取方案,自主规划路径搬运至相应位置,全程完全基于视觉引导,无二维码等定位标识。
卢瀚宸表示,针对人形机器人下游应用市场主要可分为To B和To C市场,To B场景的核心是让机器人成为生产力工具,补充稀缺劳动力或提高作业效率如上述的零售商超、制造业、药店等场景;To C场景短期更多需要考虑从满足消费者的情绪价值或某些特定功能需求作为切入点,如家庭场景,短期内一个全能型的家庭家务机器人似乎不易实现,但针对特定场景和需求的机器人是具备可行性的。
他进一步指出,选择汽车行业作为突破口不是单一企业的选择,目前来看,算得上是国内人形机器人企业的“浅共识”。一方面汽车行业在制造业体系中是体量规模最大的行业,同时也是生产标准化、自动化程度最高的行业之一;另一方面,汽车与人形机器人有诸多的相通性,汽车厂商对于人形机器人的认知度期许相对较高,从这一点算得上是双向奔赴。
值得注意的是,银河通用除了在商业、工业领域多方试点,快速推进落地应用的同时,也在不断探索医疗康养、教育科研、家庭应用等场景,向服务千行百业、千家万户的愿景不断挺进。
关于商业落地时间点,王鹤表示,现在的技术已达到了产业化的边界,2025年或将是商用的“元年”,5年银河通用的目标是在商业场景的无人值守和车厂、工厂等场景中的应用达到万台,10年后机器人的安全性或将达到进入家庭的标准,预计15年后将产生千万级别的市场。
每一代技术变革,成本一直是影响技术商用化的重要因素。具身智能行业在推动具身智能技术商用化的过程中,如何平衡技术先进性和成本?在降低成本方面还有哪些潜力和空间?
卢瀚宸认为,降本一般有两个路径:技术创新和规模化。在人形机器人未真正实现批量化产业落地之前,规模化还无从谈起,该阶段的降本主要依靠技术创新实现,如选用准直驱的关节模组方案、电容式的力传感器方案、自主研发核心部件等。通过技术创新往往可以实现综合成本倍数级的降低。
通过对全球主要人形机器人厂商的梳理调研,产业化落地的拐点有望在2026年之后,届时规模化效应将有望主导降本的进程,预计成本的年均降幅将超20%,到2030年人形机器人单台硬件成本有望降至10万元左右,到2035年人形机器人单台硬件成本有望降至6万元左右。
来源 | 2025年2&3月合刊
来源:新浪财经