摘要:2025年8月9日,由北京人形机器人创新中心(国地共建具身智能机器人创新中心)主办的“具身智能技术与应用论坛”在2025世界机器人大会(WRC)期间圆满举行。论坛现场,来自全国近三百名具身智能领域专家学者与企业代表齐聚一堂,共同见证具身智能从技术突破走向产业落
2025年8月9日,由北京人形机器人创新中心(国地共建具身智能机器人创新中心)主办的“具身智能技术与应用论坛”在2025世界机器人大会(WRC)期间圆满举行。论坛现场,来自全国近三百名具身智能领域专家学者与企业代表齐聚一堂,共同见证具身智能从技术突破走向产业落地的重要进程。
在具身智能加速演进的当下,全球机器人产业正迈入从“能动”走向“能用”的关键窗口期。随着基础模型能力跃迁、感知决策系统趋于成熟,以及工业、物流等应用场景需求爆发,技术突破与产业落地的耦合速度前所未有。正是在这样的背景下,北京人形围绕从“最能跑”到“最好用”全面进化的目标,聚焦具身智能核心技术持续攻坚,并在本次论坛上首次对外发布。“最好用”的人形机器人,不仅要具备稳定可靠的行动能力,更要在真实场景中实现感知、决策、控制与迭代优化的全链路协同。这一目标的前提,是同时突破认知理解、通用适配、执行控制与数据供给等核心环节。为此,北京人形在论坛现场正式发布了四项具身智能核心成果——“具身世界模型体系”打通认知与预判能力,“跨本体VLA模型”实现跨本体、多场景、多技能的通用性,“人形机器人全身控制自主导航系统”解决移动与操作协同的执行瓶颈,“千台机器人真实场景数据采集计划”为具身智能机器人持续进化提供规模化数据“燃料”,共同构成了从“最能跑”到“最好用”的技术闭环,加速具身智能从技术突破迈向产业实用。
作为“最好用”机器人认知与预判能力的基础,北京人形率先推出“具身世界模型体系”,为机器人理解现实与预测变化提供核心大脑。这一体系包含具备物理时空理解与推理能力的72B具身多模态大模型以及实现神经网络驱动世界模拟器的具身智能世界基座模型。针对通用大模型具身场景下精细空间/几何理解不足,物理交互误差大等问题,北京人形基于千问72B多模态大模型,通过自研数据清洗与混合模态训练框架,实现行业首个长视频理解72B具身多模态大模型PelicanVLM,在现代多模态系统超长视频语言理解评测集Egoschema、李飞飞的视觉空间智能基准评测集VSI-Bench,多模态大模型物理推理能力大规模基准测试集PhyX等6项具身相关公开评测集上超越GPT-4o、Gemini flash 2.0以及原模型,7个公开评测基准平均性能超过SOTA 11%,达到行业领先水平。基于超过5000小时视频数据训练的具身世界模型WU,则为具身智能机器人提供了“看见未来”的眼睛,并以未见场景下的泛化能力,解锁具身无限数据的可能性。
要让机器人在多样本体与场景中灵活适配,“跨本体VLA模型”成为通用性和扩展性的关键支撑。北京人形正式发布跨本体VLA模型 XR-1,让同一模型实现跨本体运行、多场景适配、多技能调用。在业界充分验证的 RoboMIND 高质量具身数据基础上,XR-1 通过积累超百万量级的自有多本体数据,采用首创的多模态视动统一表征学习,有效利用各类机器人操作数据和海量互联网视频数据。在此基础上,XR-1 利用多模态视动统一表征训练、跨本体主网络训练和特定场景微调三阶段训练范式,实现机器人跨本体的通用操作知识积累和特定场景的多任务快速学习。在多种机器人本体上大量真实环境测试,实证了该方法的多本体、多技能、多任务、稳健泛化能力,以及其在快速掌握新技能上的巨大潜力。以 XR-1 为基础,“慧思开物”能够快速构建面向各类场景任务的通用技能库,实现多本体、多场景、多任务的能力,显著减少具身智能应用开发的成本与用时。
在执行控制环节,北京人形以“人形机器人全身控制自主导航系统”突破移动与操作协同的瓶颈,让机器人既能走稳,更能干活。该通用移动控制系统聚焦机器人在实际工作中的核心能力,由“自主导航系统”和“全身控制系统”组成。自主导航系统具备点对点导航、动态障碍感知和自主避障能力,并搭载OCC环视感知模块,实现对环境的实时占用与语义感知,拓展了自主与语义导航的应用空间。全身控制系统支持机器人在移动和站立状态下灵活进行上身动作控制,涵盖预设动作、遥操作与自主操作开发。通过稳定的质心控制与精准的末端控制,保障操作任务的稳定高效执行。两大系统协同解决机器人在移动与操作中的关键技术难题,赋能开发者实现自主任务规划与执行,助力人形机器人迈向真正的生产应用。
为让核心能力持续进化,北京人形推出“千台机器人真实场景数据采集计划”,构建全链路的数据驱动引擎。这是业内首个千台级规模的真实场景数据采集计划,通过搭建远程遥操作中心,让千台机器人走出实验室,深入工厂车间、物流仓储、酒店商超等真实工业场景,在执行实际作业任务的同时,持续采集多模态交互数据。与实验室场景不同,真实场景的环境变化、人为扰动、突发状况等因素,为具身智能模型提供了更加丰富、真实的训练素材。这种"边作业、边采集"的创新模式,不仅解决了具身智能发展面临的高质量数据稀缺难题,更构建起规模化数据飞轮,加速模型迭代优化,推动整个行业向"数据富集"跨越,为具身智能产业化落地奠定坚实的数据基础。
在技术成果集中发布之后,论坛演讲环节进一步深化了对具身智能前沿趋势的探讨。俄罗斯工程院外籍院士、苏州大学机电学院院长孙立宁,北京大学计算机学院研究员、博士生导师仉尚航,百度智能云百舸平台产品负责人周磊三位行业专家发表主题演讲,围绕从具身多模态大模型到决策控制的核心挑战,深入探讨具身智能未来的发展路径与产业落点。
围绕“具身智能如何从实验室突破到产业应用的技术跃迁”这一关键命题,北京人形具身智能负责人车正平与诺亦腾机器人创始人、CEO戴若犁,北京大学计算机学院研究员、博士生导师仉尚航,他山科技董事长孙滕谌,ADI中国区大众市场技术总监屈旭光共同参与圆桌对话,从技术通路、应用范式到商业模式展开深度交流。与会嘉宾一致认为,产业化是具身智能发展的必经之路,构建一套标准化、可复制的技术跃迁方案,将是未来行业能否实现规模化落地的关键。
在产业共识基础上,北京人形进一步推动上下游协同生态的建设。论坛现场,北京人形与多家产业链核心企业、科研机构建立合作伙伴关系,搭建具身智能技术向实际场景转化的桥梁。在合作签约环节,北京人形与百度智能云、中国电力科学院、奇安信集团、李宁公司、领益智造、特天集团、哈森股份、三维天地、浪潮智慧能源等核心机构和企业代表举行现场签约仪式,正式达成战略合作。各方将围绕协同创新与行业应用,推进具身智能技术在实际场景中的深度落地,共同打造开放共赢的产业生态。与此同时,北京人形联合京沣科技设计仿真训练平台发布,针对当前行业普遍面临的仿真数据标准缺失问题,提供覆盖多场景、高精度、高复现能力的专业训练环境,进一步完善具身智能从“训练—部署—验证”的系统能力,赋能开发者与企业快速实现真实落地。
本次论坛集中发布的四大创新成果,正在系统性解决机器人实际应用中的感知、决策和执行等核心难题。随着核心技术的持续突破和应用场景的不断拓展,具身智能有望在未来短期内实现规模化落地,为制造业升级和智能经济发展提供重要支撑,产学研用各界的深度协同,将共同推动具身智能科技创新和产业创新融合发展。
来源:机器人大讲堂