“具身智能十五大重点方向”明确产业发展热点,上下游合力推动具身时代到来

B站影视 欧美电影 2025-04-03 19:22 1

摘要:从去年下半年到现在,具身智能的热度一直不减。众多企业纷纷入局具身智能赛道,同时,今年具身智能概念也首次被写入政府工作报告,这标志着这一技术已成为科技竞争的“关键领域”,也是未来大国之间人工智能博弈的焦点。在顶层政策的助推和企业们的积极布局下,中国具身智能产业正

从去年下半年到现在,具身智能的热度一直不减。众多企业纷纷入局具身智能赛道,同时,今年具身智能概念也首次被写入政府工作报告,这标志着这一技术已成为科技竞争的“关键领域”,也是未来大国之间人工智能博弈的焦点。在顶层政策的助推和企业们的积极布局下,中国具身智能产业正在呈现蓬勃发展之势。

根据头豹研究院的数据,2023 年,中国具身智能市场规模达 1572.7 亿元。随着大模型端的技术突破,具身智能市场规模预计将以 16.5% 的复合年增长率增长至 2027 年的 2259 亿元。

长期以来,应用落地的痛点一直困扰着机器人产业链,而现在,在终端侧AI技术与硬件加速融合发展的驱动下,具身智能概念让整个产业正在超出预期地快速发展。智能机器人作为最通用的具身智能终端形态,在模型技术、多模态交互感知技术等一系列前沿科技的加持下,正在推动AI向能够理解、推理并与物理世界互动的智能发展。英伟达黄仁勋曾多次表示,AI技术终局在物理AI,AI时代下一个浪潮是“具身智能”时代。

在这样的大背景下,不久前由中国人工智能学会(CAAI)主办第二届中国具身智能大会(CEAI 2025)在北京举办。本届大会发布了“具身智能十五大重点方向”,为国内蓬勃发展中的具身智能赛道指明了后续发展的重要细分方向。

“具身智能十五大重点方向”是国内首次系统性地梳理具身智能技术的发展路线图,这十五个重点方向分别为:多模态具身感知、具身自主学习、具身大模型、具身世界模型构建、具身操作、具身导航与路径规划、具身人机协同、群体具身智能、具身知识推理、具身智能仿真平台、具身智能仿真到真实环境的迁移与泛化、具身智能安全、具身对话与交互、具身强化学习与自适应控制以及具身意识与情感。

这里将其分为五大类,其中,感知与交互是智能化基础,决策与控制是行动的核心,协作与系统推动规模化应用,基础技术支撑加速研发进程,安全与伦理保障可持续性。需要说明的是具身机器人是多学科多技术交叉的领域,很多技术方向存在重叠,这里的分类只按照技术侧重稍做区分。

在今天这篇文章中,我们一起按上述分类梳理这十五大重点方向,看看如何在具身智能时代抓住这些前沿底层技术发展脉络。

具身智能交互,感知仍旧先行

感知与交互是智能化基础,这一方向包括:多模态具身感知、具身对话与交互和具身知识推理。

作为集前沿科学技术于一身的产品,具身机器人的感知层、决策层、执行层等等每一类技术框架里都有着大量可智能化的空间。多模态具身感知是传统机器人向具身机器人升级的重要一环,是具身智能机器人的基础能力。具身智能机器人需要一整套完整的多模态具身感知系统,通过多维度的感知数据收集,带动运动控制的范式变化。

除了IMU、编码器等内部本体感知,多模态感知强调机器人能尽可能实现拟人的五感。目前除了嗅觉感知方向进展稍慢,视、触、听、语言感知等方向均有了明显的智能化提升。AI+3D视觉已经发展了很多年,是将AI与传感结合得较为成熟的赛道。以往更多的是在实时收集真实数据后不断在云端优化视觉算法。端侧AI的兴起,开始直接在端侧进行数据处理,降低了可能因传输数据造成的延迟与可靠性问题。

触觉方向上,国内有帕西尼感知、他山科技、汉威科技等厂商在向多模态触觉感知发力。如帕西尼主研发的ITPU多维触觉传感技术,不局限于传统触觉传感器的单一感知,实现了多维阵列力感知及材质、温度、纹理等多模态物理属性感知。

模型技术的提升在自然语言处理NLP领域上的优势也被机器人充分应用起来。借助端侧或云端的模型进行自然语言识别来做语音交互、语音唤醒、聊天问答等功能已经开始向机器人应用渗透。移远的机器人端侧大模型解决方案就是很好的例子,服务机器人可实现1s以内的语义识别,解码速率超过15 tokens/s。从KWS语音唤醒到VAD人声检测,再到ASR语音识别,最后通过TTS语音播报,移远大模型解决方案在全语音链路上实现了无缝衔接与高效运行。

在多模态感知与交互功能的支持下服务机器人得以准确理解用户意图,并以清晰自然的语音进行反馈,在交互体验和智能服务上远胜于传统的服务机器人。移远通信在近期受访时也表示后续会基于控制器,为机器人集成更多外围感知器件,用多维的感知来不断赋予机器人更类人的感知与交互能力。

交互的前提是充分的感知,借助实时、精准、多模态的感知技术,机器人才能拓展更多自如的AI交互功能。

具身对话与交互与自然语言处理NLP密切相关,结合语义理解与物理反馈,在大模型的支持下进行沉浸式交互。随着该方向的持续推动,具身对话与交互应该更鼓励通过持续的交互,自然形成双向、多模态的交流方式,即人类和机器人可以共同塑造交流氛围,并不断改进具身机器人非结构化的交流能力。

非结构化交流能力是具身对话交互的愿景,现阶段完成更自然更拟人的交互是亟需的。目前不少厂商针对智能陪伴机器人的核心需求在这方面的能力升级,如广和通最近发布的星云系列,就通过外接摄像头、麦克风等传感器,星云解决方案通过多模态感知可实时解析用户动作、表情与语音意图,并通过端侧7B模型支持个性化对话生成与情感识别,实现更自然的“拟人化”情感交互。

在多模态感知到多模态交互的过程中,涉及到具身知识推理,即让机器人能够结合先验知识与实时感知数据,利用知识库中的结构化知识(如物理规律、操作流程、语义关系等),提升对复杂任务的逻辑推理能力。其核心在于将抽象知识(如常识、领域规则)与具身多模态感知(如视觉、触觉)深度融合,以支持动态环境下的任务规划与交互执行。

决策与控制塑造行动核心,协作与系统推动具身规模化应用

决策与控制方向上包括:具身自主学习、具身强化学习与自适应控制、具身导航与路径规划、具身操作;协作与系统方向上包括:具身人机协同、群体具身智能。

具身导航路径规划以及具身操作是机器人执行侧的下一个发展阶段。自主导航与路径规划经过这些年的发展已经成熟了很多。特别是SLAM技术的成熟完善让机器人在没有环境先验信息的情况下实现了未知地图内的自主导航与规划,让很多商用机器人得以落地应用,如巡检机器人、送餐机器人。值得注意的是,具身导航时代,3D SLAM也在快速崛起。

具身智能设备的迅速普及将快速推动以SLAM为代表的各类导航传感器的融合,在多传感器信息融合的基础上,通过智能模型优化路径规划,让机器人导航向更自主更灵活的具身导航方向发展。为了实现性能更好的导航效果,我们也看到上游的芯片厂商会自研导航规划算法将算法在芯片层面硬件化,如一微半导体、芯明智能;传感器厂商也有不少将导航算法与传感器件打包成模块提供给下游本体厂商,如镭神智能、AMS OSRAM、速腾聚创。

机器人末端执行器的具身操作其实无需赘述,重点在于具身智能体如何基于多维度多模态感知信息生成行动策略并实现精准执行。各类精密的末端操作在今年亮相的机器人中已经有了很多展示,后续如何拓展具身机器人多样化工作能力,持续增强基础动作模型能力,从而实现更广泛的场景应用是落地关键点。

机器人具身自主学习、具身强化学习与自适应控制是底层技术的长期积累,具身自主学习通过试错与环境反馈优化策略,根据反馈信息来调整自己的行为。具身自主学习方法在机器人多个模块都有广泛的应用,例如在机器人导航中,机器人可以通过感知周围的环境和障碍物,学习到如何避开障碍物并找到最佳路径;在物体识别和抓取任务中,机器人可以通过多模态模型感知物体的形状、质地等特征,并不断学习到如何正确地抓取物体。在不断的尝试和错误中,机器人自主学习到如何有效地与环境进行交互,并实现特定的任务。强化学习与自适应控制更强调突破传统程序化指令限制,适应动态环境变化,如柔性机器末端的实时调整。在具身设备落地阶段,适应动态环境变化的自适应控制将发挥关键作用,确保机器人在复杂场景中灵活应对各种变化。

具身人机协同、群体具身智能将单个具身智能体扩展到多智能体协同以及人机协同作业,通过群体智能算法实现高效协作,聚焦多机协同的复杂系统设计,强调交互性与规模化应用。智源研究院在大会上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain就强调可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能。

具身智能技术的持续演进,不仅提升了机器人的个体能力,更在多智能体协同中展现出强大潜力。随着算法优化与硬件升级,群体具身智能的完善将推动智能制造与人机协作迈向新高度。

基础模型技术与底层框架平台推动具身技术迈入物理AI终局

基础技术的快速迭代加速着具身技术的应用,在十五个方向中包括了:具身大模型、具身世界模型构建、具身智能仿真平台、仿真到真实环境的迁移与泛化。

模型技术自然是具身智能实现的基石,在其他技术方向上,也或多或少能看见模型技术的影子。面向具身智能应用领域的多模态具身大模型,能够帮助机器人真正理解这个世界,对人类发出的指令进行拆解、逻辑推理和规划决策,再分配给不同的小脑模型来执行。具身大模型是全球诸多机器人公司和研究机构追捧的前沿课题。

此前Figure发布的Helix,内置拥有70亿参数的开源端侧互联网预训练视觉语言模型用于处理语音和视觉信息,和8000万参数的AI模型用于将指令转化为精确的机器人动作;智元机器人发布的通用具身基座大模型智元启元大模型则凭借强大的泛化能力,能够在极少的数据甚至零样本下泛化到新场景、新任务,降低具身大模型的使用门槛;不久前优艾智合联合西安交大具身智能机器人研究院团队构建的“一脑多态”的具身智能大模型,同样采用多模态通用基座大模型,还加上了“一脑多态”端侧具身模型的混合架构;魔法原子近期也公开了首个具身智能大模型“原子万象”。

对于带有执行功能的具身机器人终端侧设备来说,构建多模态具身大模型是通往高阶智能的必经之路。与此同时,多模态具身大模型和硬件算力的适配,则是能否真正应用起具身大模型能力的重点,也是推进具身设备落地的关键。

数据融合后高复杂性需要恰当的计算资源让整个具身大模型系统运转起来。多模态具身模型与硬件算力的结合正在积极涌现,众多具身端侧大模型纷纷与英伟达、紫光展锐、高通、瑞芯微、英特尔等算力硬件厂商展开深度合作,释放具身大模型潜力。具身模型与硬件算力结合落地,让具身智能设备进入商用的步伐加速。

在物联网智库近期的采访中,也了解到不少算力模组厂商如移远通信、广和通、比邻智联等,正在积极布局机器人模型“大小脑”,通过算力、模型、连接多方面的工程化能力加速下游机器人本体厂商应用起AI能力。

具身世界模型根据英伟达官网的定义,即理解现实世界动态的生成式AI模型,能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。在终局的物理AI世界,具身世界模型是连接虚拟与现实的桥梁,是能够表征世界运作逻辑的空间智能。

以NVIDIA面向物理AI发布的“世界基础模型”Cosmos为例,它能通过生成合成数据,使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。目前具身世界模型正处于初步发展阶段,但不可否认的是构建具身世界模型在具身环境的训练决策中起着至关重要的作用,它让现实世界中原本成本高昂依赖真实数据的模拟在虚拟环境和数据下成为可能。

涉及到大量虚拟数据构建与仿真,具身智能仿真平台、仿真到真实环境的迁移与泛化自然是具身智能重要的研究方向。笔者在此前的文章《机器人与模型深度融合开启智能升级下半场,智能终端的未来终局是物理AI》中也提到过,“和传统模型不一样,机器人世界模型所需的训练数据需要精确标定来进行学习和泛化,而且很难从现实世界完成庞大的采集量且采集后多模态数据很难标定,度量不一这些数据就无法被模型利用。从Sim到Real也就成了更有效率的一条路”。

在这些重点技术方向上,世界基础模型提供物理世界知识和高仿真数据,奠定泛化基础,端侧的具身大模型经细化、压缩及多模态融合优化,适配具身设备算力需求充分释放应用潜力,共同推动着具身智能迈入物理AI终局。

写在最后

在最后一个分类中,是和安全与伦理相关的具身智能安全、具身意识与情感。目前这一块的建设还比较稀缺,且具身机器人还没有进化到具备意识与情感的阶段,但未雨绸缪提前布局总是好的,确保具身技术应用符合伦理规范并规避潜在风险,是未来具身智能设备可持续发展的必要条件。

具身智能十五大重点方向,囊括从底层感知到高层决策、从单机到系统、从技术突破到社会落地的完整链条。这些方向的明确为后续具身智能产业链布局提供了参考,在模型技术、算力硬件、运控技术、感知技术等基础软硬件协同发展的推动下,国内具身智能将逐步实现从概念到实际落地应用的跨越。

来源:智次方

相关推荐