多技术栈驱动的人形+类人形:通用具身机器人的普渡方案

B站影视 2024-12-22 14:22 2

摘要:12月19日,全球服务机器人领军企业普渡机器人正式发布首款全尺寸双足人形机器人PUDU D9并即将开启预售,引发业界广泛关注。该产品由普渡X实验室(Pudu X-Lab)研发,高170cm,重65kg,全身关节拥有 42 自由度,最高关节扭矩达 352Nm,搭

“通过移动、操作和AI三大核心技术栈的深度融合,普渡正构建起完整可商业化的通用具身机器人技术体系。”

▍引言

12月19日,全球服务机器人领军企业普渡机器人正式发布首款全尺寸双足人形机器人PUDU D9并即将开启预售,引发业界广泛关注。该产品由普渡X实验室(Pudu X-Lab)研发,高170cm,重65kg,全身关节拥有 42 自由度,最高关节扭矩达 352Nm,搭载五指灵巧手PUDU DH11,拥有高度仿人的双足行走及双手操作能力。

在最新演示视频中,D9展示了令人印象深刻的双足能力,不仅能够稳健地直立行走、应对外力干扰,还能自如地通过斜坡。更引人注目的是,它能够熟练操作普渡智能立式洗地机SH1完成地面清洁任务,展示了在实际场景中的应用潜力。

这是普渡X实验室继类人形机器人PUDU D7、五指灵巧手PUDU DH11之后,今年孵化的第三款产品,标志着普渡成为业内首个在专用、类人形、人形机器人三种形态上实现全面布局的厂商。

有业内专家认为,这种融合发展策略为通用具身机器人的发展提供了新的思路。本文将深入探讨普渡如何通过多技术栈协同,从可被商业化的角度推动人形与类人形机器人的技术创新,为行业发展提供可借鉴的解决方案。

▍通用具身机器人的三种形态:技术创新与商业落地的最佳平衡

人形机器人是否是唯一终极形态?在机器人领域,关于机器人最佳形态的讨论一直存在。当前的行业发展表明:将“专用、类人形、人形机器人”简单理解为三段论发展过程或许是一种不够本质的认知。实际上,这三种形态之间存在着深刻的互补关系,各自承担着不可替代的角色

这种互补性主要体现在技术能力的协同发展上。要实现通用具身智能,需要移动、操作和以AI驱动的交互和学习等多个核心技术能力上取得突破。这些能力的实现涉及软硬件的结合,包括运动控制系统、计算平台、传感器等硬件,以及操作系统、算法等软件技术。普渡将这一技术体系比作一棵庞大的技术树,顶端是核心能力,往下延伸出各种具体的实现路径。

在实现路径上,普渡则提出了循序渐进的策略,主张在追求长期技术创新的同时,也要注重短期内的实际应用和市场落地。

这种策略体现在普渡机器人CEO张涛此前提出的“单位工作面积内的自由度”创新概念上,这一概念以机器人总自由度与工作面积的比值为基准,来衡量三种形态各自适配的场景,以打造最具商业落地能力的具身智能。

基于“单位工作面积自由度”这一指标,三种形态的机器人各具特色且相辅相成。

专用机器人以3自由度/千平方米的配置,主要面向物品运输、地面清洁等大面积、远距离、高负载的任务,以最具性价比的方案实现最大化工作能力;

类人形机器人达到300自由度/千平方米,结合了专用和人形机器人的部分特征,能够用较高性价比的方式大幅提升专用机器人的泛化服务能力,是工业生产、 实验科研等垂直场景的最优解;

人形机器人则高达30000自由度/千平方米,能够应对环境复杂、任务多元,且对人机交互体验要求较高的场景,如商业服务,家庭陪护等,满足高智能、高执行精度的需求。

基于这种分类方法,普渡采取了最为务实的发展策略:通过移动、操作、AI多技术栈驱动三种形态的全面布局,在追求技术创新的同时推动商业化应用。不同形态机器人共享和复用核心技术栈的模块,并通过多场景的海量PoC持续积累迭代技术。这种多元协同的发展思路为通用具身机器人探索出一条切实可行的进化路径:未来的机器人生态不是某种形态的一统天下,而是三种形态各司其职,共同构建完整的通用具身机器人应用体系

▍移动能力:轮/足双形的行进之道

作为普渡的三大核心技术栈之一,移动能力直接决定了机器人的应用范围与效率表现。当前在人形机器人的发展进程中,轮式与足式越来越多地表现出各自的优势,而普渡基于多年的技术积累已成为极少数同时完成轮式和足式双重布局的厂商

普渡自2021年起便开始了足式机器人的研发,其足式技术已经积累了深厚的经验。在技术层面,采用强化学习的方式来开发足式技术已经非常成熟,并能够达到令人满意的效果。

普渡人形机器人PUDU D9的平地行走速度最高可达到接近成人的2米/秒,同时能够自如应对楼梯、斜坡和崎岖路面等城市常见地形。通过算法创新,D9能够实现超轻步态,不仅确保了移动的灵活性,还有效降低了在人居环境中的运行噪音;并同时实现了站、走、跑等移动方式的无缝切换,同时优化了能量消耗的运动控制,使其步态更自然轻盈。

PUDU D9双足形态的一大优势在于其与人体结构的相似性,这使得机器人能够更好地利用人类运动数据如示教、动作捕捉和视频等进行学习训练,同时在人机交互场景中创造更自然、友好的体验。

在感知导航方面,PUDU D9沿用了普渡在视觉语义导航方案方面的行业领先技术,通过高精度传感器获取环视几何和语义感知信息,实时构建3D语义地图,机器人能够深入理解环境,精准定位自身与环境的位姿关系,并根据任务需求自主规划路线,实现灵活通行和实时避障。

商业化方面,足式机器人相较于轮式机器人,在复杂地形的通过性和适应性方面有显著的比较优势。面对室内不平整的地面或室外环境时,足式则更加适用,而轮式机器人则主要适用于室内平整地面,两种移动方案面向不同场景形成优势互补

于是我们看到,在足式技术日渐成熟的同时,基于“三种形态单位工作面积内的自由度”,轮式人形机器人凭借其在2D空间内显著的移动效率,成为越来越多人形机器人厂商的第二发展曲线。相比之下,普渡在轮式技术方面则具备显著的行业先发优势,可以直接实现技术复用。

以普渡类人形机器人PUDU D7为例,其全向移动轮式底盘支持360度灵活转向,并能在最大10度的斜坡上稳定运行。根据普渡的长期商业化实践,大多数商业应用场景如商场、写字楼、医疗机构等环境相对标准化,轮式方案的移动效率更高,能够很好地满足需求,在跨场景、长序列任务中展现出了优异的可靠性。

在服务机器人研发领域,多传感器集成和融合技术已成为行业发展的主要趋势。D9和D7均配备了RGBD相机、激光雷达和全景相机等多种传感器,实现了光、声、电、触等多维度的环境感知,使机器人能够在复杂、动态的大型场景中提供高精度的定位和导航能力。普渡在视觉和声学感知等领域已积累了丰富技术经验,通过硬件和软件算法的协同优化,将触觉感知技术与多模态融合框架无缝集成,进一步提升了机器人的环境感知能力。

可以看出,在人形机器人的移动方案中,足式与轮式两种技术路线能够实现优势互补,展现出在不同场景下的应用价值。从类人形机器人PUDU D7到人形机器人PUDU D9,普渡为通用机器人探索出了一条轮/足双形的行进之道

▍操作能力:服务机械臂破解通用具身机器人的泛化性难题

操作能力是机器人实现通用性的关键技术栈,普渡敏锐地把握住了这一趋势,通过大力发展服务机械臂的操作技术,为通用具身机器人的泛化性挑战和商业化发展提出了新的解决方案和发展思路。

对操作机械臂的重点研发源自普渡长期商业化实践的深刻洞察与市场反馈:商用机器人的落地往往面临与电梯、门禁等场景设备之间的打通,而IoT技术存在较大的重复改造成本与来自第三方的溢价风险。同时市场上的配送机器人和清洁机器人都无法完成跨场景端到端任务的闭环。而服务机械臂则能够通过物理方式自主操作电梯、开门,还能够自行加水、排污、倒垃圾、更换清洁组件,大幅提高机器人的操作能力,是客户真正需要的具身智能。

普渡机器人CEO张涛将通用具身机器人的泛化性归纳为5个维度,分别是:单一操作对象的泛化性、工具的泛化性、环境的泛化性、不同任务的泛化性和不同构型的泛化性。这5个维度共同构成了机器人实现通用性过程中面临的复杂挑战。

服务机械臂得益于AI大模型和智能技术的进步,首次让泛化性具备可行性,为上述泛化性难题提出了新解法。在机械臂设计方面,D7及D9均采用双臂协同方案,每条手臂具备7自由度,双臂负载能力达到20kg以上,通过深入的机械结构优化和精密控制算法,实现了0.1mm的末端重复定位精度,能够执行各种精细操作,如抓取、搬运和组装,适用于多种复杂的工业和商业服务场景。

在末端执行器方面,PUDU DH11五指灵巧手展现出突出优势。其11自由度设计源于对人手功能的深入分析,而非简单模仿,充分考虑了实际应用中的功能需求。通过配备12个触觉传感器区域和1018个感应矩阵点构成的触觉系统,实现了对物体的精确感知和操控。在机构设计上,DH11采用绳驱动和欠驱动方案,通过采用金属多股集成钢索的创新设计,使单手提拉重量达到40kg,同时保持了较高的灵活性,实现了力量与灵活性的良好平衡。

从商业落地角度看,通过服务机械臂和灵巧手的加持,机器人的泛化操作能力大大提升。而操作能力的提升将成为服务机器人全球商业落地的重要抓手,相比传统的IoT改造方案,机械臂可直接通过物理方式执行按电梯、刷门禁等动作,大幅降低了全部署成本。这种解决方案既体现了普渡对用户需求的深入理解,也为机器人泛化能力的实现和规模化应用带来了新变革。

▍AI驱动多模态交互与具身学习能力

服务机械臂和灵巧手的操作能力的背后离不开AI技术的加持。在通用具身机器人发展的进程中,AI驱动的多模态交互和具身学习能力始终是核心命题。普渡机器人通过AI技术的创新研发,探索出独特路径,通过融合感知、决策和执行系统,构建起完整的智能交互方案。这一技术方案立足于数据驱动,以分层模型架构为支撑,揭示了具身智能发展的创新方向。

在架构设计上,普渡采用了“大脑大模型”与“小脑大模型”分离的双模型策略,这种分工使得系统能够更好地应对复杂多变的环境和任务。在这种架构下,大脑模型与AI大模型链接;小脑模型的目的是将大模型拆解出的任务序列(skill sequence)转化为实际控制机器人完成任务的指令。业内专家表示,在小脑模型方面,普渡已经处于行业第一梯队

机器人大讲堂采访的多相关专家指出,这种架构选择是基于当前技术发展阶段的最优解。尽管随着神经网络和机器学习技术的进步,未来可能会出现更统一的模型,但在目前,这种分离策略在性能、风险管理和模型训练效率等方面都展现出更为明显的优势。

PUDU D9及D7拥有基于Scaling Law的具身智能学习进化能力,伴随着持续的学习迭代能够实现更多跨场景的通用复杂任务。该理论指出,随着「模型大小」、「数据集大小」、「(用于训练的)计算浮点数」的增加,模型的性能会提高。

基于这一理论,普渡的人形和类人形机器人采取了一种多层级的数据学习策略,将数据分为三个层次:直接操作数据、半模拟数据和海量互联网数据。普渡的创新之处在于采取了一种平衡策略,努力从每种类型的数据中提取最有价值的部分。例如,从海量的互联网视频中学习人类操作的基本流程,或者从仿真数据中提取与真实世界最接近的部分。这种方法允许在保持数据质量的同时,大幅提高可用数据的数量。

在训练方面,PUDU D9采用动捕、遥操作、视频等多类复合数据作为训练输入,保证其训练数据数量大,质量高,从而提升训练效率。在模型方面,采用模仿学习与强化学习结合的训练方式,一方面通过模仿学习快速掌握各种基础能力,同时通过强化学习进行运动控制,使其具备一定的适应泛化性。更进一步,基于海量数据训练的VLA模型,使机器人自主感知环境、理解任务、编排动作成为可能。

这种多层级的数据学习策略对于实现机器人的泛化能力至关重要。通过学习多样的数据,机器人能够更好地适应不同的环境和任务。即使面对全新的物体或环境,经过充分训练的机器人也能够快速适应并完成任务。在这一学习策略下,普渡人形和类人形机器人将通过持续的学习进化不断提升任务的泛化性,并持续突破跨场景端到端任务的边界。

▍结语:多技术栈加速具身智能商业落地

在人工智能快速发展的时代背景下,通用具身机器人已成为全球科技创新的战略高地。行业实践表明,面对复杂多变的应用环境,单一技术早已难以满足多元化的场景需求,机器人行业迈向多技术栈协同发展的竞争格局

普渡机器人基于对行业趋势的深刻洞察,从最具商业落地能力的出发点,率先提出“专用+类人形+人形”三种形态协同发展模式。通过移动、操作和AI三大核心技术栈的深度融合,构建起完整的通用具身机器人技术体系。

展望未来,用具身机器人将在多个维度实现突破:轮/足双形优势互补,突破环境限制;机械臂与灵巧手协同进化,提升操作精度;多模态交互持续优化,创造自然流畅的人机互动体验。多技术栈驱动下,具身智能的商业化路径愈加清晰。

伴随着PUDU D9的正式发布,普渡成为行业内率先完成三种形态全面布局的厂商。普渡的三种形态本质上是通过用户需求倒推,在积累了移动、操作、交互三大核心技术栈领先优势的基础上,再将多元形态作为解决客户痛点的解法。普渡凭借多技术栈的前沿探索和深厚积累,为具身智能未来大规模的商业化落地打下了坚实基础。

来源:机器人大讲堂

相关推荐