多方巨头宣布开源数据集,全球具身智能加速进化中!

B站影视 电影资讯 2025-03-18 03:41 2

摘要:在具身智能领域,数据对于训练深度学习模型以增强和优化机器人能力至关重要,但数据采集成本高昂、数据采集效率低、数据通用性差等因素极大限制了具身智能的发展。

具身智能正在数据开源的道路上奔跑。

在具身智能领域,数据对于训练深度学习模型以增强和优化机器人能力至关重要,但数据采集成本高昂、数据采集效率低、数据通用性差等因素极大限制了具身智能的发展。

北京航空航天大学机器人研究所所长王田苗也指出,数据的匮乏让人形机器人很难具备泛化性。当前,机器人任务泛化、感知泛化和运动操作的三个泛化数据很难获取,比如让机器人叠衣服、骑自行车等这些数据很难得到。

也正因如此,数据集的开源就成为了推动具身智能行业共同进步的关键“加速器”。

2024年末至今,全球已有8家具身智能公司与研究机构宣布开源数据集,多方巨头正共同助力数据生态建设,加速全球具身智能进化。

傅利叶——FourierActionNet

3月17日,上海机器人企业傅利叶正式开源全尺寸人形机器人数据集FourierActionNet,首批上线超3万条高质量真机训练数据。

数据集囊括傅利叶GRx系列所有机型的各类任务训练,完整记录机器人在真实环境中的任务执行数据,涵盖了对常用工具、家居用品、食物等多种物体的精确取放、倾倒等操作,以及在不同环境条件下实现泛化执行,包含专门针对手部任务的模仿学习数据,适配多自由度灵巧手任务,同时,所有数据均采用视觉语言模型(VLM)进行自动标注,并通过人工二次核验。

值得注意的是,FourierActionNet包含万级真机训练数据,包含专门针对手部任务的模仿学习数据,适配多自由度灵巧手任务,所有数据均采用视觉语言模型(VLM)进行自动标注,并通过人工二次核验,确保数据精度与准确性。

创新中心——RoboMIND、“天工”

3月12日,北京人形机器人创新中心有限公司 Tien Kung(以下称“创新中心”)发布了全球首个“一脑多能”“一脑多机”的通用具身智能平台“慧思开物”。“慧思开物”的应用是对基于单一场景单一任务做专项开发这一传统机器人应用开发模式的颠覆,同时也填补了具身智能领域在通用软件系统方面的空白。

在数据集开源方面,创新中心发布的行业首个标准化通用具身智能数据集和Benchmark RoboMIND首批开源数据10万条,覆盖工业、家庭、办公等多场景任务,具备高度的通用性和可扩展。

2024年12月27日,创新中心与北京大学计算机学院联合推出了大规模多构型具身智能数据集和Benchmark——RoboMIND,基于成型标准采集,经多个模型训练验证有效,支持多本体多任务并具备通用性。

据统计,本次创新中心发布的数据集采用了包括单臂机器人、双臂机器人、人形机器人等多种形态的机器人本体进行数据采集,包含了279项不同任务的多类场景,涵盖了高达61种不同的物体,具备多本体、多技能、多应用的特点,是我国首个具备通用性且由模型验证有效的具身智能数据集。

2024年11月11日,创新中心宣布启动“天工开源计划”,将陆续把本体、数据集、运动控制等方面的技术成果面向行业开源开放。

据悉,基于全身协同智能小脑平台,“天工”实测平均时速可达每小时10公里,最高奔跑速度已提升至每小时12公里,其还可在斜坡、楼梯、草地、碎石、沙地多种复杂泛化地形中实现平稳移动。

“天工”所装配的多能具身智能体平台“开物”包含AI大模型驱动任务规划的具身大脑和以数据驱动的端到端技能执行具身小脑,具备一脑多机、一脑多能的能力,未来将拥20万条机器人轨迹数据,适配超20个以上机器人本体,实现具身能力开发时间降低90%。

数据生态方面,创新中心数据采集涵盖6类本体7大典型场景,日产数据已达10TB。

Physical Intelligence——π0

今年2月,美国明星具身智能初创企业Physical Intelligence(简称PI)开源了他们的视觉-语言-动作具身模型π0,在GitHub上发布了π0的代码和权重。他们还表示,根据他们自己的实验,1 到 20 小时的训练数据足以让π0适配各种任务。

π0具备 预训练基础,基于一个30亿参数的预训练视觉语言模型(VLM),并在此基础上进行调整,以实现机器人控制。在任务表现上,π0 在多项机器人任务上表现优于其他基线模型,包括整理桌面、叠衣服、组装纸箱等。且该模型能够接受自然语言指令并执行任务,同时支持对复杂任务的微调。

本次π0基础模型开源的内容包括:运行基础预训练π0模型的代码和模型权重;针对ALOHA和DROID等机器人平台上的一些简单任务微调的多个检查点;在多个现实世界和模拟机器人平台上运行推理的示例代码;用于针对特定任务和平台微调基础π0模型的代码。

深圳市人工智能与机器人研究院——MultiPlan

今年1月,深圳市人工智能与机器人研究院的AIRS智能控制中心冀晓强教授团队提出了国际首个用于大语言模型(LLM)微调的异构多机器人协作控制数据集MultiPlan,以及错误诊断指标MRED。MultiPlan基于自然语言任务描述框架定义了任务内容、环境描述和动作规划,结合机器人底层SDK,提供了简洁且可部署的智能协作方案。

与传统方法相比,微调后的7B参数规模模型在复杂任务的规划及控制能力上实现了对GPT-4o等闭源大模型的显著超越。MultiPlan数据集涵盖100个常见室内外生活场景,通过模板生成与人工复核的数据流水线,确保了数据的泛化性和多样性。实验分别在办公室服务和城市街道清洁两个场景中进行部署,证明了方法的有效性和鲁棒性。

智元——AgiBot World

2024年12月30日,智元机器人宣布百万真机数据集开源项目AgiBot World。智元机器人介绍称,AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。相比谷歌开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。

AgiBot World诞生于智元自建的大规模数据采集工厂与应用实验基地,空间总面积超过4000平方米,包含3000多种真实物品和100多种高度还原的真实场景,按家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)进行分布,全面覆盖了机器人在生产和生活中的典型应用需求。

宇树科技——G1操作数据集

2024年11月13日,宇树科技宣布,为了推进全球具身智能行业发展,开源 G1 人形机器人操作数据集,包括数据采集、学习算法、数据集和模型,并表示将持续更新。

本次开源,宇树科技公布了用于G1人形机器人的遥操作控制代码,内容包括遥操作控制的代码教程、硬件配置图、物料清单和安装说明等。同时,宇树科技还开源了G1人形机器人的操作数据集,数据集涵盖拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并放入黑色容器等五种操作,记录了机器人手臂和灵巧手的七维状态和动作数据。

清华大学——RDT

2024年10月18日,清华大学开源了全球最大的双臂机器人扩散大模型RDT(Robotic Diffusion Transformer)。RDT是由清华大学计算机AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备1.2B参数量,能在无需人类操控的情况下,自主完成复杂任务。RDT可以基于模仿学习人类动作,展现出强大的泛化能力和操作精度,能处理未见过的物体和场景。

据了解,RDT在迄今为止最大的多机器人数据集上进行预训练,并将其扩展到1.2B参数,这是最大的基于扩散机器人操作基础模型。在自建多任务双手数据集上对RDT进行微调,数据集包含超过6000+集,改进其操作能力。RDT拥有目前最大的双臂微调数据集,清华团队构建了包括300+任务和6000+条演示的数据集。

谷歌——Open X-Embodiment

2024年10月,谷歌DeepMind联手斯坦福大学、上海交通大学、英伟达、纽约大学、哥伦比亚大学、东京大学、日本理化研究所、卡内基梅隆大学、苏黎世联邦理工学院、伦敦帝国理工学院等21家国际知名机构,整合了60个独立的机器人数据集,创建了一个开放的、大规模的标准化机器人学习数据集——Open X-Embodiment。

据悉,Open X-Embodiment是迄今为止最大的开源真实机器人数据集,涵盖了从单臂机器人到双臂机器人,再到四足机器人等22种不同形态的机器人,共包含超过100万条机器人轨迹和527项技能(160,266项任务)。研究人员证明,相较于仅在单个机器人类型数据上训练的模型,在多个机器人类型数据上训练的模型表现更佳。

注:头图来自国地共建具身智能机器人创新中心官网

来源:新浪财经

相关推荐