摘要:在首钢基金成立十周年之际,鹏城实验室多智能体与具身智能研究所所长、中山大学林倞教授受邀出席“名人堂”系列第二场活动,发表题为《具身智能:迈向人机物高效融合与协作》的主题演讲。林教授系统阐述了具身智能的核心技术突破、产业化挑战及未来前景,并分享了鹏城实验室与中山
探索“大模型+机器人”,迈向人机物高效融合与协作。
作者:林倞
在首钢基金成立十周年之际,鹏城实验室多智能体与具身智能研究所所长、中山大学林倞教授受邀出席“名人堂”系列第二场活动,发表题为《具身智能:迈向人机物高效融合与协作》的主题演讲。林教授系统阐述了具身智能的核心技术突破、产业化挑战及未来前景,并分享了鹏城实验室与中山大学在该领域的创新成果,为人工智能与物理世界深度融合指明方向。
2024年,具身智能无疑成为了人工智能领域的热点话题,吸引了产业界、学术界以及众多创业公司的广泛关注与热烈讨论。林教授在演讲中回顾了过去一年具身智能领域取得的显著成果,并分享了他在学术研究与产业实践方面的心得体会。
1 研究背景
2024年被业界定义为人工智能发展的“阶跃式元年”,两大标志性事件凸显了该领域的革命性突破。其一是多模态大模型的全面崛起。自2022年末ChatGPT问世以来,历经2023年的技术沉淀,至2024年已实现爆发式迭代,其逻辑推理能力显著增强。目前,多模态大模型不仅可完成日常对话、数学与奥赛题目解析,甚至辅助科学家进行前沿领域的探索与发现。与此同时,AI推理成本呈现指数级下降趋势,曾经昂贵的计算成本如今已大幅降低,推动智能技术深入大众生活。基于此,AI应用生态加速扩张,覆盖法律咨询、教育定制、医疗诊断等垂直领域,其发展速度与影响力已超越过去十年的总和。
首钢基金基于对机器人产业的战略布局,促使我们思考一个关键命题:当前大模型已在数字空间展现出卓越的理解、推理与学习能力,我们是否可以将这种能力从数字领域拓展到物理世界,实现与机器人的深度融合呢?这一探索旨在将科幻场景转化为现实应用,推动通用人工智能(AGI)真正融入人类生活。通过数字能力与物理实体的结合,大模型技术不仅可拓宽应用维度,更可能开启智能技术发展的新纪元,为工业自动化、智慧城市等领域提供颠覆性解决方案。
当前人工智能的迅猛发展催生了一项关键共识:通用人工智能(AGI)的实现无法依赖单一超级模型的突破,而需以数字世界与物理空间的高效对齐与融合为基石。这一观点的形成,部分源于对经典科幻电影《黑客帝国》的深刻反思。影片中,主角尼奥在数字空间具备超凡能力,却在现实物理世界受限于普通程序员身份。其核心启示在于,通过将数字空间的智能潜能转化为物理世界的实际能力,可突破人类认知边界。启发我们,弥合数字空间与物理世界之间的智能差异,是实现通用人工智能的关键所在。
在深入探讨这一观点之前,数字智能(即“离身智能”)与物理智能(即“具身智能”)的本质差异需被清晰界定。前者聚焦于监控、检测、分类等传统任务,依赖数据驱动与模式识别,与物理环境交互有限;后者则强调智能体与物理世界的强交互与深度耦合,需实现自主行动与动态适应。例如,视觉导航技术赋予机器人在复杂场景中的自主移动能力、四足机器人可协同人类执行空间探索任务、操控技术使机械臂完成毫米级精度的物体抓取等。此外,具身智能的交互问答需基于环境实时反馈,任务复杂度显著提升——从单一指令响应到多步骤场景操作(如全屋整理),均需突破传统AI的范式局限。
随着具身智能的应用范围显著拓宽,其复杂性和实施难度也随之几何级数增加。面对如此强大的大模型(从GPT-3到后续版本GPT-4),一个议题应运而生:“能否直接将这些大模型应用于机器人(比如机器狗或双臂机器人),以实现具体的执行任务?”。这不仅是技术上的挑战,更是未来研究的重要方向。然而,大模型虽在文本与语言任务中表现卓越,向物理世界的迁移仍存在显著瓶颈,如:如何将抽象推理能力转化为具象物理操作能力、如何处理动态环境中的实时反馈等。攻克这些难题,将为实现人机物高效融合与协作奠定坚实的基础。
现状表明,当前技术攻关仍面临三大核心挑战:
其一,模型架构与物理场景适配性不足。以ChatGPT为代表的现有大模型,其设计逻辑未针对物理世界交互需求进行专项优化。尽管语言与多模态模型(如DeepSeek)在架构成熟度、能效比等方面取得进展,但其底层技术框架未发生本质革新,导致物理AI应用中存在显著瓶颈——物理智能需同时解决感知、规划、控制及大小模型协同问题,远超传统AI任务范畴。
其二,复杂任务分解机制待突破。现有大模型依赖自回归架构(Next Token Prediction),其基于概率生成的特性导致长周期任务执行时易出现逻辑断层、信息丢失等问题。例如,在需要多步骤协作的工业场景中,模型难以保障任务链的连贯性与完整性。
其三,世界模型抽象能力受限。物理交互要求智能体掌握因果关系、动态演变等深层认知,而当前大模型通过海量文本训练构建的“世界模型”仍存在结构性缺陷:一方面,其对物理实体动态变化(如物体形变、环境扰动)的实时响应能力不足;另一方面,基于语言符号的抽象知识难以直接映射至物理空间行为规则,导致泛化能力受限。
当前机器人技术呈现“表面繁荣”与“底层滞后”的鲜明反差。尽管社交平台频现机器人执行洗衣、烹饪、清洁等任务的演示视频,但其技术内核与前沿大模型存在代际差距。以参数规模为标尺:2020年传统大模型参数量约为33亿,至2022年ChatGPT突破3000亿,2024年GPT-4更攀升至1.3万亿量级。反观主流机器人专用模型,如Google RT-1与创业公司Physical Intelligence的Pi Zero,参数量仍徘徊于33亿,仅为顶尖语言模型的1%。参数规模鸿沟直接导致机器人模型在涌现能力与通用性上的力不从心——多数演示视频仅为特定场景的过度拟合成果,如擦桌、洗碗等任务在环境变更后效能骤降。此类“实验室性能”与“现实鲁棒性”的割裂,成为产业化落地的结构性瓶颈。过去十年AI企业普遍亏损的症结,正源于此:场景泛化能力缺失致使技术演示与商业应用脱节。如何实现数字能力向物理空间的可靠迁移,已成为破局物理智能的关键命题。
具身智能的规模化发展的首要挑战是如何获取高质量的数据来训练大规模的具身基础模型。当前技术突破与行业实践呈现三大关键进展:
1. 早期模型验证技术可行性:尽管参数规模有限,具身智能先驱模型已展现产业化潜力。2024年3月发布的RT-H模型率先实现人类指令驱动的任务分解与机械操控,验证视觉-语言-行动(VLA)架构的技术可行性;同年10月,清华大学推出RDT-1模型,创新性融合扩散模型与机器人策略学习,为动态环境下的决策优化提供新范式。
2. 鹏城实验室的创新实践:鹏城实验室研发的50亿参数具身智能基础模型,采用“仿真预训练+物理微调”的创新路径(先在仿真环境中进行训练,然后通过少量真实数据微调迁移到物理空间),有效规避真实数据采集成本高、场景覆盖有限的难题。该模型在NeurIPS 2024发布后,较字节跳动、谷歌同类模型性能提升约20%,确立仿真训练的技术优势。
3.开源生态初现雏形:除了我们,还有其他值得注意的开源项目。如Physical Intelligence公司开源多模态VLA模型,集成仿真环境训练框架。然而,具身智能开源生态仍处于萌芽阶段,高质量基础模型稀缺,目前主要集中在上述几个项目中。
具身智能(Embodied AI)虽概念渊源深远,但其现代技术范式的突破性发展集中于近两年。传统“具身智能”机器人仅停留在基础功能实现层面,其技术路径与当前基于“基础模型+微调预训练”的方法存在本质差异,不可等同视之。
具身智能的学术拐点始于2022年——Google Robotics团队发布RT-1模型,首次验证Transformer架构生成机器人操控指令的可行性,标志着具身基础模型研究正式迈入新阶段。早期技术探索由美国高校与科技巨头主导,国内则以字节跳动、清华大学为代表,在算法优化与场景应用层面取得显著进展。
鹏城实验室与中山大学联合团队及我们孵化的企业,依托算力与战略先发优势,系统性布局具身智能核心技术:
数据资产:创建了全球最大的具身智能数据集之一ARIO,涵盖300万条数据;
长程连续具身导航:开发了一个专门针对复杂任务分解的训练仿真平台LH-VLN,用于长程任务的研究等
仿真训练平台:发布目前最大的开源具身智能训练平台Infinite World,提供全链条工具链与资源库;
在探讨具身智能迈向人机物高效融合与协作的进程中,我们首先需要明确其所面临的挑战,主要集中在两个层面:感知与决策、平台与数据集。
第一个层面:感知与决策
1. 空间推理能力不足
当前大模型的训练数据多源自互联网文本,缺乏精确的空间信息,当前的大规模模型在空间理解能力方面存在显著不足。例如,在阅读或讨论一本小说时,文字本身是高度抽象的,与具体空间概念的关联较弱。因此,基于此类数据训练出的机器人模型在处理涉及空间理解和推理的任务时,往往会出现理解偏差。空间推理能力,是当前模型需要改进的一个关键领域。
长程任务规划可解释性低
如何解决这一问题?传统“思维链”(Chain-of-Thought)方法通过特定的提示词和输出指令激发大规模模型的推理能力,从而逐步实现任务的执行。依赖静态任务假设,而真实场景中环境状态持续演变(如清洁时新增障碍物),现有大模型的自回归架构难以实时响应动态上下文。因此,在这样一个动态变化的上下文环境中,如何有效地进行任务分解和执行,是一个重要的挑战。
3. 复杂操作泛化能力弱
末端执行器(如机械臂)需要高度的精确性而非复杂的规划能力,这类执行任务并不依赖于大语言模型的自回归概率计算方式,而是更倾向于使用如模型预测控制(MPC)和运动控制等技术来实现精准操作。因此,如何将大模型的概率计算与小规模、专门化的模型或算法(例如用于优化求解和规则应用的技术)有效结合,以达到高效且精准的任务执行效果,是当前需要解决的一个重要问题。这种大小模型协同工作的方式,在数字空间中的传统应用中较为少见,是具身智能领域的一个重要研究方向。
第二个层面:平台和数据集
仿真环境作为训练具身智能的核心基础设施,其数据应用效能直接影响技术突破速度。以英伟达在CES发布的机器人仿真平台“Cosmos”为例,其依托游戏级3D渲染引擎与底层交互技术,构建高拟真训练环境,展现了行业头部企业的技术雄心。然而,现有仿真器仍面临双重局限:
1. 真实性、交互能力、场景多样性不足
即便采用尖端图形技术(如光线追踪、物理引擎),仿真环境与真实世界的视觉保真度差异仍存。更关键的是,人类与虚拟角色的交互体验尚未突破“操作者”与“观察者”的边界——用户难以深度融入数字场景并实时指导模型学习,导致训练效率与场景适应性受限。
2. 具身数据与任务形式单一、规模有限
研究指出,仿真预训练需与物理世界数据微调形成闭环。当前技术路径需攻克三大协同难题:
系统解耦:确保异构机器人(如双足机器人与机械臂)在统一仿真平台中的独立运行与协作;
软硬件分离:构建硬件无关的算法框架,实现同一模型跨机器人平台的快速迁移;
数据一致性:建立仿真数据与真实数据的标准化映射协议,解决传感器噪声、材质属性偏差等跨域干扰。
以上两个层面的五个关键领域,是我们在过去五年中一直在深入探索的课题。通过不断攻克这些挑战,我们有望推动具身智能技术迈向人机物高效融合与协作的新时代。
2 关键技术
围绕前述五个核心难题,鹏城实验室系统布局四大研究方向,推动技术闭环:
1. 智能体多模态主动感知
如何从被动感知转变为主动感知,即从传统的被动感知模式过渡到以任务为导向的主动感知。
2.智能体任务规划与决策
如何根据任务要求进行合理的任务分解与执行,构建世界模型,以实现精准可靠的任务执行。
3.具身智能体的虚实迁移
如何通过仿真与数据的结合,解决当前面临的挑战,例如高昂的数据成本及大规模参数矩阵的训练难题。如何将大模型训练环境与实际硬件(如机器狗、双臂机器人、夹爪、灵巧手等)相结合,以实现从虚拟到现实的有效过渡。
4. 国产自主可控的生态体现
如何构建基于国产算力的生态系统,在国家实验室层面推动具身智能技术的发展。
研究方向一:智能体多模态主动感知
我的科研轨迹始于通信工程领域,后聚焦计算机视觉与多模态智能交叉研究。早期在商汤科技主导安防监控、图像检索等被动感知技术研发期间,我们敏锐洞察到人工智能从“被动响应”向“主动探索”跃迁的必要性。2020年,我们启动“Active Search”项目,开创性提出智能体自主目标搜索框架:在模拟环境中,智能体基于实时环境反馈动态调整搜索策略,突破传统视觉任务(如目标检测)的静态范式限制。
彼时Transformer或GPT等大模型尚未普及,我们主要依赖长短时记忆网络(LSTM)这一循环神经网络(RNN)来记录任务上下文与环境信息,以支持目标搜索任务,奠定主动感知领域早期方法论基础。随着大模型与算力革命,该研究已从仿真环境扩展至更具现实性的三维真实环境。通过重建真实世界场景,以验证智能体的主动感知能力。智能体可通过虚实融合环境完成复杂空间探索任务,相关成果转化为工业巡检、服务机器人等场景的核心技术模块。
研究团队进一步拓展技术边界,赋予智能体“建图-语义-功能”三位一体的环境解析能力。以四足机器人为载体,其可自主探索未知室内空间,实时构建包含几何结构(如墙体轮廓)、语义标签(如“会议室”“走廊”)及物体功能属性(如“门把手可旋转”)的数字化孪生场景。该能力突破依赖三大技术创新:
跨模态感知融合:同步处理激光雷达点云、RGB图像与物理交互数据,构建毫米级精度环境模型;
功能推理引擎:基于3D高斯建模技术,将物体几何特征(如椅背倾角)与物理功能(人体支撑)动态关联;
场景图动态更新:通过人机交互问答实时修正环境认知,例如识别临时放置的障碍物并更新导航路径。
基于“数据即智能燃料”的理念,团队构建全球首个具身可供性认知数据集,涵盖300万条多模态交互轨迹,并建立三层验证体系:
功能性标注标准:定义物体使用规则(如“杯口朝上可盛装液体”),构建包含21类物品的Affordance知识库;
物理规则嵌入:将材料力学特性(如摩擦系数)与三维高斯模型结合,实现抓取动作的物理可行性预判;
虚实映射协议:开发点云-面片模型转换算法,确保仿真训练结果可直接驱动实体机器人执行毫米级操作。
该技术链条已应用于鹏城实验室“Infinite World”平台,支持从数据采集、模型训练到硬件部署的全流程闭环验证,为具身智能产业化提供标准化基础设施。
具身智能的核心突破聚焦于自主规划与决策能力的进化。相较于以感知为核心的第一阶段研究,第二阶段需攻克动态环境中的因果推理与任务泛化难题,标志着技术难度跃升。
我们早在2017年即开启该领域探索——其发表于国际多媒体顶会的获奖论文,提出“世界模型”概念。针对当时人脸识别技术受限于场景理解的问题,团队以“智能泡茶”为验证场景,构建基于与或图(AND-OR Graph)的规则知识库,融合LSTM网络实现上下文记忆。该系统可解析茶叶种类、水温要求、茶具选择等复杂参数,生成多分支任务流(如红茶需沸水冲泡、绿茶需80℃水温),成为早期具身规划研究的里程碑。
随着ChatGPT等大语言模型的崛起,世界模型实现从“人工规则”到“自主进化”的质变。团队去年最新研究成果之一“智能体能够自主进行导航(navigation),并与人类交互以执行特定任务”,就是将大型语言模型 ChatGPT作为世界模型的核心组件,通过三大创新突破传统局限:
常识获取革命:智能体直接对话大模型获取领域知识(如“厨房刀具存放于抽屉”),无需预建知识图谱;
多模态协同:融合CLIP模型实现视觉-语言对齐,使机器人在识别茶壶同时理解“此容器适合盛装热水”;
动态适应性:当环境突变(如泡茶时水量不足),系统可实时调用大模型生成应急方案(如暂停烧水并提示人工干预)。
实验结果表明,该方法在学术界处于领先地位,并为解决复杂任务提供了一种有效的新路径。
除了导航任务外,我们还采用另一方法来提升智能体的操控能力,解决交错物体抓取难题(如从堆叠餐具中精准取出指定茶杯)。我们在 VLA(视觉-语言-行动)模型中整合了空间智能与空间处理能力,通过引入一种路径点感知的世界模型及一个基于点云和视觉关联的感知模型,以充分利用 3D 信息来提高智能体的抓取准确性。与 Google 和字节跳动的 GR-1 模型相比,我们的模型在多个任务上的表现更优。实验结果也表明,该方法显著提升了 VLA 模型的性能,并进一步验证了世界模型的有效性。
从导航到操控,再到人机交互(interaction),智能体需要在一个包含物理环境的仿真系统中实现更自然的对话与互动。多模态研究最初主要集中在视觉问答(VQA)任务上,但真正的多模态应用要求智能体能够在实际环境中进行交互。例如,在一个仿真环境中,用户可以通过对话向智能体发出指令,如执行导览任务或泡咖啡等操作。为了支持这一复杂的人机交互需求,我们创建了专门的数据集,并进行了深入研究与探索。
基于上述研究,我们正在开发一个开源项目——“多模态自主感知与执行平台”。该平台适用于未知环境中的导航、抓取及交互等多种任务。在这一平台上,我们构建了高层次的任务模型,该模型通过与大语言模型的交互来理解场景上下文,解析任务要求,并进一步指导执行过程。同时,我们设计了多个低层次接口,以管理和执行具体操作任务,如抓取、VLA 任务及关联技能库等。通过将高层任务和底层任务整合于同一平台,我们实现了从规划、决策到执行的完整闭环。
该平台最初由我们与达闼机器人公司合作开发,并已在仿真环境中进行了广泛测试。当前,该系统不仅能够在模拟环境中运行,还可以部署至实际机器人硬件。为了进一步提升其应用能力,我们正计划扩展更多仿真器,以更全面地支持任务规划和执行。
任务分解、操作执行等具身智能核心能力的验证,高度依赖高拟真仿真环境。研究团队初期虽与多家机器人企业合作,但传统仿真器的物理规则偏差、场景单一性等问题,严重制约复杂任务(如家庭服务机器人全屋清洁)的研发效率。为此,团队启动第三代仿真环境自主研发,以更准确地模拟真实世界中的各种条件和挑战。
我们经过两年的努力,重磅推出了一个开源项目Infinite World。Infinite World 旨在构建一个统一且可扩展的仿真框架,为通用机器人交互和任务执行提供高精度的模拟环境。该框架具有以下核心特点:
场景多样性:提供丰富的场景库,涵盖室内外环境,并结合 AIGC 技术生成各种 3D 场景及视频内容。此外,我们还支持通过扫描或重建真实环境,将其映射至虚拟空间,实现高保真的物理空间模拟。
丰富的数字资产:在早期创业阶段,我们与设计公司及制造企业合作,从事智能家居和装修设计,并积累了大量高质量的数字资产。这些资产已被产品化,并创造了数千万级的收入。我们将这些数字资产整合至仿真环境,以增强其多样性和实用性。
机器人的参数化与数字孪生:我们对多种机器人进行了参数化建模,并将其映射至仿真环境中,实现数字孪生。例如,我们能够将实际机器狗及其他机器人的物理参数反向映射至仿真环境,从而使仿真环境不仅具备虚拟空间的表现力,还能反映真实世界的数据。
多传感器仿真:除视觉与语言仿真外,该框架还集成了触觉及多种传感器数据的模拟,如 IMU(惯性测量单元)等。这一特性确保了智能体在仿真环境中能够获取更全面的感知信息,从而优化决策能力。
上述技术的整合,使得 Infinite World 能够构建一个虚实闭环的系统,突破现实与虚拟之间的界限。为进一步推动该项目,我们联合了中山大学及多所高校、实验室共同开展研究。我们相信,只有从场景多样性、数据资产整合、机器人仿真及多传感器模拟四个方面进行全面优化,才能真正实现虚实闭环的目标。
关于场景的多样性
1. 智能场景生成。区别于李飞飞团队World Lab的限定生成框架,平台灵活运用现有的多模态大模型及多种生成器,以实现更加多样化的内容创建。
2. 高精度三维重建。凭借深厚的视觉领域专业背景,我们能够对特定空间(如会议场地)进行扫描和拍摄,完成室内外环境的高精度重建。在重建完成后,我们进一步开展编辑工作,包括场景角色编辑、文本生成、风格转换等操作,可为每个场景提供丰富的纹理、背景材质以及多种替换方案。
3. 机器人数字资产。平台还涵盖了机器人资产的整合,包括机器人的参数化模型及其交互式物体的生成。这些物体不仅涵盖刚性结构,还包括柔性及可链接组件(如铰链),从而支持更为复杂的物体交互。
关于场景应用能力
我们通过具体案例说明平台技术的场景应用能力。
例如,我们实现了语言驱动的自然场景生成与编辑。以家居设计场景为例,基于现有的户型图或扫描数据,我们能够进行房屋设计的重建,并支持用户进一步编辑,最终借助英伟达的渲染引擎以实现高质量的视觉效果。
用户可以生成一个客厅,并在此基础上选择不同的风格转换,可以在场景中添加、移除或替换家具及其他元素等。我们计划在今年上半年将该产品推向消费端市场,直接服务终端用户。
在模拟环境下,我们目前支持四类任务执行:
物体定位导航:用户可指定目标位置,机器人通过任务驱动方式实现自主导航,例如指示机器人前往特定房间获取物品。
局部操作:涉及对物体的抓取与操控,我们已将相关技术整合至该部分,使机器人能够在特定环境下执行精细操作任务。
场景重构:恢复场景的空间结构,以增强机器人对环境的理解、探索与重建能力。
可移动交互:突破固定位置的操作限制,使机器人能够在开放世界中进行社交互动与移动操作,从而与人类进行自然交互,并根据指令完成任务。
此外,还可应用于场景重建,如重现用户家庭或办公室的特定场景以进行远程操控,并还实现了机器人参数的映射,使其可在仿真环境中执行任务并进行交互。
除了Infinite World,我们还开发了一个专门面向导航任务的仿真环境。在推进具身智能产业化的过程中,发现任务操控与复杂任务执行在实际应用中面临诸多挑战,部分应用场景尚不成熟。除智能设计与生产制造外,注意到导航技术在多个领域展现出了广泛的应用潜力,例如机器人自主巡检。因此,基于现有仿真器,我们构建了一个专注于导航任务的仿真平台。该平台不仅集成了丰富的数据集和算法,还特别针对长视距视觉语言导航进行了优化。
在推进具身导航任务产业化的过程中,我们识别出以下关键问题:
任务定义过于简单:当前的任务设计通常仅限于如取物等基础操作,缺乏实际应用价值。
场景丰富度不足:尽管大模型规模庞大,但其泛化能力和涌现能力受限于仿真器提供的有限场景,难以实现广泛的通用性。
评估标准不统一且缺乏解释性:现有的任务评估体系尚不完善,影响了模型的持续优化。
为应对这些问题,我们构建了一个全新的长程导航平台,该平台覆盖了从物体定位导航到需求驱动的人机交互等多个阶段。例如,当用户提出需要一杯茶或咖啡的需求时,机器人需自主熟悉环境,并执行包括长程规划和多步骤解析在内的高层次任务指令。此平台不仅用于验证任务分解与探索能力,还确保导航系统能够根据具体需求高效执行任务。
此外,我们引入了新的评价指标来衡量任务成功率,具体包括定义和计算每个子任务的成功标准,并在任务完成但偏离指令的情况下,通过加权计算调整整体成功率。针对前述问题,我们全面重构了面向应用需求的导航规划方案,确保其能够更加精准地响应实际操作中的复杂性和多样性。
目前,全球已存在多个导航仿真器和训练平台,例如Stanford的behavior-1k。相较这些现有平台,我们的系统在指令长度、任务步骤及任务类型等方面实现了显著的规模化扩展。具体而言,我们提供了261个不同的场景和超过3000个任务,更贴近实际应用需求。此外,平台支持两种机器人视角:机器狗视角和较高视角的通用机器人,以适应复杂多样的任务需求,并实现更优的任务组合效果。
我们还提出了“行动前思考”机制,以提升大语言模型与具身系统的交互能力。同时,为解决行动后记忆网络遗留历史信息导致任务执行效率下降的问题,我们引入“行动后遗忘机制”,通过动态调整记忆片段,实现记忆模糊化。
此案例展示了在虚拟环境中进行导航任务的演示。如其中一个任务是将背包从后室移动到客厅的沙发上,随后再从客厅取回一本书。该任务流程较长,任何环节的失误都会导致任务无法顺利完成。我们的演示不仅展现了如何在复杂环境中执行多步骤任务,还进行了详尽验证,确保每个步骤都能准确无误地执行,从而保障整个任务的成功完成。
我们还进行了一系列与实际机器人本体结合的尝试,旨在将仿真环境中训练出来的感知能力和运动控制能力,应用到实际机器人上。自2022年起,我们就启动了这方面的工作,并在2023年发表了相关成果。
具体而言,通过将双足机器人的参数映射到如Gazebo这样的早期仿真器中,研究了从仿真环境训练得到的运动策略是否能成功迁移到实体机器人上。随着研究的深入,我们已开始与多家机器人公司合作,旨在充分利用我们在仿真平台和模型开发方面的专长,推动技术的实际应用。
前述三点是我们工作的核心内容。接下来,我将介绍在鹏城国家实验室构建具身智能生态系统方面的相关工作。这不仅是国家赋予我们的使命,也是我认为对未来具有深远战略意义的方向。
我先简要介绍一下背景。我于2023年加入鹏城实验室。当时,作为从事人工智能研究的一员,在研究过程中,深刻体会到计算资源的挑战,并认识到算力是推动人工智能进步的关键要素之一。在深圳乃至整个大湾区,鹏城实验室拥有最强大的计算能力,尤其受益于英伟达生态系统的支持。然而,面对中美技术竞争的新局面,国家早已布局并推动了非英伟达算力生态的发展,“中国算力网”项目即为其中的关键战略举措。
“中国算力网”由国家发展和改革委员会批准,作为一项国家级战略项目,计划分三期推进,总投资接近 100 亿元。该项目的核心目标是通过超级计算技术、网络互联技术及自主研发的芯片,构建一个覆盖全国的高性能计算网络。在项目早期阶段,由于保密要求,其具体细节并未广泛对外披露,因此北京的同行可能对其了解较少。项目第一期主要依赖英伟达的技术,目的是学习和复现英伟达算力集群的搭建方式;到了第二期,开始引入华为 910 处理器,逐步向非英伟达技术过渡;第三期计划于 2025 年下半年完成验收,届时将全面采用最新的 910C 处理器。虽然单卡性能大约相当于英伟达 H100 的 50%~60%,但通过大规模集群化,整合了数万张卡,形成全球最大规模的算力集群,并利用先进的网络互联技术,实现全国多个计算中心的高效协同和弹性调度。
基于“中国算力网”的强大支持,我牵头成立了专注于具身智能的研究机构-鹏城实验室多智能体与具身智能研究所,目标是充分利用这些资源,促进具身智能领域的突破性进展,力求在全球范围内取得技术领先地位。
在具身智能的研究中,数据是我们首先关注的方向。
我认为数据是驱动具身智能技术进步的关键,因此首要任务便是高质量数据集的构建。最初Google发布的 Open X Embodiment 项目提供了当时最大的集成数据集,但在实际使用过程中,发现该数据集存在诸多问题,包括标准不统一、模态缺失、不支持传感器数据等。
为了解决这些问题,我们对数据集进行了系统性的重构,包括格式转换、标准化,以及对多模态数据的支持,使其能够适用于跨机器人训练平台。这一过程历时一年多。从 2023 年底至今,已经积累了约 300 万条轨迹数据,涵盖 340 个不同的场景,并支持数十种机器人的数据。
我们发起成立了具身智能数据集ARIO联盟,进一步扩展和优化数据资源,吸引了多家机器人公司参与,如达闼科技、松灵机器人、智元机器人等。这些企业不仅贡献了各自的数据,还能共享联盟成员提供的数据,形成了一个互惠共赢的合作模式。
在上述工作的基础上,我们进一步推动了一个更为雄心勃勃的项目:依托自主开发的“中国算力网”平台,结合大规模数据集和仿真平台,整合现有研究成果,并联合国家实验室及多家机器人公司,共同开发具备跨机器人、跨场景能力的具身智能大模型。目标是构建一个支持数十种不同机器人的具身感知、规划与控制一体化的大规模预训练平台,实现真正的通用性和可扩展性。
目前,开源社区中的具身智能基础模型仍然十分有限,并且大多数缺乏实际应用价值。许多所谓的“模型”只是基于已有模型的微调版本,或仅包含几 B 级参数,泛化能力较弱。所以,我们计划开发一个规模超过 200B 参数的具身智能基础模型,旨在建立一个全新的生态系统。
在应用层面,我们也积极推进具身智能在真实环境下的部署。我们在中山大学设立了通用具身智能中心,专注于前沿技术的研发与测试。目前我们正在进行长程任务规划能力相关的研究,已联合搭建多套具身智能硬件平台,打造原型系统。
该系统能将复杂任务分解为可执行的具体步骤。例如,在开放环境中购买榴莲的任务涉及长程任务规划、感知和交互等多个方面,在网上可查到相关视频。目前,该系统已成功部署到真实机器人平台上,并能与用户进行互动,同时支持两只机器狗的协同工作。
最后,许多我刚才讨论的内容都包含在我去年发表的一篇综述中。这篇综述详尽地覆盖了具身智能的多个核心方面,包括机器人硬件、仿真环境、感知与交互等关键领域,并特别对“sim-to-real”方法进行了系统的总结与分析。
此外,我们在具身智能研究所的网站上持续更新最新的学术成果和技术进展,确保研究者能够获取具身智能领域的最新信息和发展动态。
未来,我们将进一步探索大模型、数据集和算力之间的协同效应,推动具身智能研究迈向新的高度,并积极探索其在实际应用场景中的落地可能性。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。
截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告
《核聚变,确保 21 世纪美国的主导地位的关键技术》
《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》
《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》
《联合国环境规划署:2024 年保护地球报告(81 页)》
《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》
《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》
《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》
《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》
《邓白氏:2024 年全球企业破产报告(27 页)》
《LLM 时代小模型的应用潜力与挑战 》(50 页)
《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)
《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》
《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》
《高德地图:2024 年中国主要城市交通分析报告(29 页)》
《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》
《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》
《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》
《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)
《量子信息科学与技术对国家安全的影响》(118 页)
《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》
《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》
《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》
《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》
《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》
《超材料的智能设计研究进展》
《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》
《量子信息科学与技术对国家安全的影响》
《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》
《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》
《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》
《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》
《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》
《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》
《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》
《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》
《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》
《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》
《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》
《经合组织(OECD):2025 年全球脆弱性报告(218 页)》
《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》
《国金证券研究所:从理想走向现实,全球人型机器人研究报告》
《深度解读 DeepSeek 原理与效应(附 PPT 下载)》
《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》
《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》
《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》
《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》
《RBC 财富管理:全球透视 2025 年展望报告(33 页)》
《美国国防部和国家安全领域的十大新兴技术》(96 页)
《代理型人工智能全面指南》(45 页 ppt)
《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)
《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》
《未来的太空领域:影响美国战略优势的领域》
《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》
《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》
【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》
《改进单智能体和多智能体深度强化学习方法》(219 页)
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)
《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》
《超越 ChatGPT 的 AI 智能体》(82 页 ppt)
《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》
【新书】《人工智能智能体的应用》(527 页)
《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》
《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》
《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》
《中国工程院:2024 农业机器人现状与展望报告(70 页)》
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》
《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》
《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》
《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》
《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》
《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》
《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)
《欧洲创新委员会(EIC):2024 年科技报告(65 页)》
《大模型基础 完整版》
《国际人工智能安全报告》(300 页)
《怡安(AON):2025 年全球医疗趋势报告(19 页)》
《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》
《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》
《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》
《大规模视觉 - 语言模型的基准、评估、应用与挑战》
《大规模安全:大模型安全的全面综述》
《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》
《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》
【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》
《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》
《北京理工大学:2025 年中国能源经济指数研究及展望报告》
《Space Capital:2024 年第四季度太空投资报告(22 页)》
《NetDocuments:2025 年法律科技趋势报告(32 页)》
《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》
《Artlist:2025 年全球内容与创意趋势报告(59 页)》
《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》
《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》
《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》
《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》
《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》
《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》
《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》
《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》
《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》
《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》
《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》
《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》
《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》
《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》
《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》
《DeepSeek_R1 技术报告》
《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》
《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》
《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》
《百页大语言模型新书》(209 页 pdf)
《量子技术和网络安全:技术、治理和政策挑战》(107 页)
《大语言模型中的对齐伪造》(137 页)
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)
《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)
《自动驾驶的世界模型综述》
《Questel2024 深度学习领域专利全景报告》(英文版 34 页)
《深度解析 Palantir》(20250122_204934.pdf)
上下滑动查看更多
来源:人工智能学家