摘要:早期的生成式 AI 主要用于图像生成,后来逐渐拓展到文本领域。ChatGPT 爆火后,语言大模型兴起。现在,语言大模型具备了复杂的推理能力,比如 ChatGPT o1 模型,能做更复杂的推理决策。近期的 AIGA 技术,则能够生成更复杂、更多样化的决策动作,比
导读本文由华为诺亚 AIGA 方向研究员李银川博士介绍了生成式决策技术演进与在具身智能中的应用。
本次分享主要包括以下四大部分:
1. 生成式决策的定义与技术演进
2. 具身智能概念及其核心技术
3. 生成式决策技术在具身智能中的应用场景
4. 技术挑战和未来发展方向
分享嘉宾|李银川博士 华为诺亚 AIGA 方向研究员
编辑整理|王红雨
内容校对|李瑶
出品社区|DataFun
01
生成式决策的定义与技术演进
1.生成式 AI:从理论到应用
生成式 AI 是一种基于生成模型的人工智能技术,与传统深度学习不同,其训练方式是从已有的数据中学习样本分布,然后重采样生成新样本。
下面让我们一起来追溯生成式 AI 的发展历程,剖析关键技术演进,并探究其发展趋势。
2. 生成式 AI 的技术演进
早期的生成式 AI 主要用于图像生成,后来逐渐拓展到文本领域。ChatGPT 爆火后,语言大模型兴起。现在,语言大模型具备了复杂的推理能力,比如 ChatGPT o1 模型,能做更复杂的推理决策。近期的 AIGA 技术,则能够生成更复杂、更多样化的决策动作,比如在具身智能中复杂轨迹的生成。代表性的工作包括 GFlowNets、Diffusion、Normalizing Flow 等生成式决策算法。
生成式决策可以定义为:一种运用深度学习技术,通过生成模型对数据分布进行完整的策略整合,再从完整策略分布中重新采样生成新动作的技术。其优势在于,泛化性好、探索效率高,并可以通过采样生成新动作,在新环境中孵化出一些新的能力,进而驱动自演进和与环境交互。
传统强化学习的局限性在于,其以最大化奖励期望为目标,训练损失也围绕最大化回报,没有对完整的策略分布进行学习和整合,所以无法从采样策略中采样生成完整的新动作,只能在最大化回报处采样得到相应动作。
近年来,有不少具有代表性的 AIGA 模型。比如 MIT 提出的 Decision Diffuser,还有谷歌 DeepMind 提出的 Normalizing Flow 等,它们都和传统强化学习做对比,重点关注生成新动作的能力。
传统强化学习单模态最大化回报,在多目标模态下效果欠佳。逐渐朝着生成式决策技术方向发展的强化学习典型趋势是将强化学习和 diffusion 网络结合,利用 diffusion 的能力进行行为克隆。学习到更好的策略分布后重采样,能得到多模态的分布。结合 diffusion 的强化学习能从 latent space 中重新采样生成新的动作和轨迹分布,这也符合生成式决策的定义。
传统强化学习是从状态到动作再到状态的转移,而 Decision Diffuser 开创性地构建了状态之间直接扩散的方式,不再学习动作生成,而是直接从一个状态扩散到下一个状态,再通过逆向方程反向求解出动作来完成转移。它的目标是生成新状态,对完整状态分布进行学习并采样生成新状态,使用 MSE 类的损失,区别于强化学习的最大化回报。
Normalizing Flow 的技术原理是从均匀分布开始,通过流函数拟合回报,慢慢扩散到想要的目标分布,具备生成新策略的能力,能从策略分布上重新采样出新动作。
由 Yoshua Bengio 提出的 GFlowNets,基于有向无环图建模,在结构化生成决策问题上有着显著优势。当决策问题能建模成有效无环图时,标注每个状态节点,训练时让节点的流入流量等于流出流量,这样就能对状态转移中的每个步骤精确建模,学习到每个节点对应的策略分布。在结构化问题上探索效率远高于强化学习,比如在蛋白质生成、结构化网格移动、棋盘上的运动以及图神经网络优化等方面优势明显。
综上,生成式决策模型正引领人工智能领域迈向更高维度,从强化学习框架的局限跳出,向多样化、灵活的决策策略拓展。
02
具身智能概念及其核心技术
1. 概念定义
具身智能超越传统机器人范畴,更似智能平台,强调与真实环境互动,而非仅限于机械形态。通过本体(载体)在物理空间中实现与虚拟或现实环境的交流,赋能智能体以更好地适应复杂环境,提升交互体验。可分为两部分,“大脑”负责任务规划,“小脑”专注运动感知与执行。如传统自动驾驶,这也是一种具身智能,重点不在于造车,而是给车赋予更好的智能。
2. 应用场景
具身智能应用场景广泛,包括工业与服务机器人、仿人机器人、自动驾驶车辆及医疗辅助机器人等。
3. 核心技术
具身智能的核心需求包括:
复杂度低;在小样本学习中可以学到较好的效果;可泛化;多能力(决策大模型),可适应多重情境,实现多感官融合;环境交互,在不确定条件下保持稳定表现,强化适应性;智能体自主学习与进化,适应变化环境,实现持续优化。具身智能的核心在于实现智能体与环境的高度协调,推动智能科技从单一到多元,从被动到主动,不断进化,拓宽智能边界。
传统的经典控制如 MCPC 控制,效率高但泛化性差,每个场景都要复杂建模,开发周期长;强化学习泛化性强,但对不同环境需要大量训练,数据采集和训练资源开销大,难以支撑具身智能的能力涌现。
生成式决策技术的发展为具身智能带来了转机,生成式决策模型能够帮助具身智能在复杂环境中学习完整策略分布,进行冲突处理、生成新动作,实现更好的多模态、泛化和多能力发现,以及演进的能力。
03
生成式决策技术在具身智能中的应用场景
接下来介绍生成式决策技术在具身智能中的应用。
1. Diffusion Model 的发展
上图中展示了以 Diffusion Policy 为核心的技术发展时间线:
2020 年:Diffusion Denoising Probabilistic Models(DDPM)提出,在图像生成方面优势明显。2022 年:麻省理工学院(MIT)主导研发的 Decision Diffusion,颠覆了离线强化学习。2023 年:Diffusion Policy 率先在具身智能上应用。2024 年:出现很多 Diffusion Policy 大模型开源,如 OCTO、OpenVLA,引发了具身智能 Diffusion Policy 浪潮。同时,具身数据采集技术公开,开源具身数据增多,支撑训练更好的决策大模型,且已分析出 Diffusion Policy 在具身智能决策上出现 scaling law 规模法则能力,可通过增加算力和数据量孵化更可泛化的决策能力。生成式决策与具身智能交汇处展现出的规模化发展趋势,不仅验证了技术路径的可行性,也为智能体功能扩展的光明愿景。
作为学术界领跑者的斯坦福大学的 ALOHA、UMI,以及工业巨头特斯拉、Figure AI、千寻智能等,均在具身智能领域取得了显著成果。
相较之下,从控制理论向 Diffusion 生成模型转型,核心优势凸显,Diffusion Policy 在迭代过程中的误差削减力卓越,且潜力上限遥不可及,远超传统控制法。传统控制法虽稳健可靠,却在复杂策略表达方面相对逊色,不及前者灵活多样,制约了长期发展潜力。
下面再详细介绍一些 Diffusion Policy 相关工作。
2. 基于 Diffusion 的具身操控基础架构
率先应用到具身智能的 Diffusion Policy 工作,重点分析了 Diffusion 在具身智能的优势,如可任意归一化分布,可以从高维空间生成优质图像,解决策略动作分布时的模型学习能力,做到动作时间一致性,更好地生成新动作。采用 Diffusion 做具身大模型,优势是可泛化多能力,但早期小样本学习和环境交互优势未充分体现。
在上述基础上进行了改进的算法,通过扩散模型生成高维动作分布时,对多模态任务的学习更加灵活。但训练成本较高,需大量预训练,推理控制速度有限。
进一步的改进工作 Condition Diffusion,引入了 condition 约束。大模型操作机械臂,其输出的轨迹有时会存在误差,使机械臂不能按照理想的路线平滑运动,这时就会出现一些奇异姿态,出现碰撞风险。
通过引入 condition 约束,可以改进上述问题。比如在 Diffusion 网络中加入运动学感知的架构引导,将机器人的运动关节建模成运动学状态编码到网络中,这样就可以使运动轨迹更加平滑、可控。尤其在开抽屉、叠衣服等复杂任务中,可以获得更好的效果。
另一趋势着眼 Diffusion Network 的高效训练与稳定性增强,结合 Autoregressive 方法,适应动态时序关系,增强生成能力与灵活性。最新研究透过可控噪声控制与时序分析双轴建模,提升样本利用率,自回归采样优化,兼顾长度可变与复杂分布学习,支持因果推理功能整合,大幅提升训练效率,成为当下热点。
综上,Diffusion Policy 在具身智能领域的探索,不断攻克挑战,拓宽能力范围,正朝着高效、精准、实用的方向稳步前行,持续引领智能技术前沿。
3. 业界端到端 Diffusion 方案
从最早的 ACT 到 OCTO,开始用 Diffusion 模型训练更大网络做更好的预训练。OCTO 简洁但缺乏多模态能力,主要输入模态为图像,也未很好地利用大模型预训练能力。OpenVLA 进一步利用预训练,效果更好,但模型更大,推理成本更高,且模态仍较单一。未来业界趋势是构建多模态输入的 Diffusion 大模型。
设计通用的模型架构,融合 Transformer 自回归训练和 Diffusion 优势,对 OpenX 数据集模改并更好预训练,支撑灵活模态切换。
多模态融合与优化预训练将是推动具身智能进步的关键步骤,旨在构建兼具广度与深度的大模型,以满足多样化应用场景需求。
04
技术挑战与未来发展方向
现有技术的主要痛点包括:
数据集模态单一:目前最大的开源数据集 OpenXE 模态单调,后续需要更多高质量的开源数据,包括大量 3D 数据等多模态数据。模态的使用方式不灵活:现在模态之间的切换不够灵活,需要做自适应的模态选择。比如,机器人在黑暗屋子里,看不到图像时,就用点云的激光雷达数据执行任务;点云数据不可用时,就用图像来处理。目前还没有能实现这种灵活切换的架构。缺乏开箱即用的简洁模型:当前的架构训练效率不高,做一些抗震荡约束时还得自己建模才能有好效果,缺少一个端到端、更简洁、可扩展、模块化,还能在端侧部署的架构,这也是未来研究的趋势。2024 年 Diffusion Policy 成为具身智能领域的主流方向,不过目前业界只能做到单模态、单 skill 内的泛化,比如机器人机械臂能倒水,但不能做披萨,不同任务能力之间不能互通。
2025 年,随着越来越多的多模态数据的出现,会逐渐孵化出多模态策略的泛化能力,帮助机器人学习更多元化的任务。
2026 年,多模态多 skill 间的泛化能力会逐渐显现,促进机器人自己孵化出新技能,实现扩散模型与现实世界交互中的自演进。下面介绍几个关于自演进的工作。
首先是 AdaptDiffuser,提出通过扩散模型生成轨迹,并结合奖励梯度进行自我优化,实现自主适应不同任务场景的能力。这是最早对生成探索与决策优化相结合的尝试。
接下来,Meta Diffuser 改进了之前工作,在元离线强化学习中引入更多样化学习任务,通过仿真未来可行的决策序列,根据反馈对不同策略打分,在不同环境做出最优决策。
SkillDiffuser,通过扩散模型生成多样技能轨迹,以增强自主学习中的探索能力,特别适用于机器人学习和复杂运动控制任务。
EUREKA,通过迭代连续进化,改善奖励函数质量,将大语言模型、编码上下文、进化搜索能力用于奖励函数生成,不需要人工构建大量数据或提示,就能做到和人类相似的奖励反馈,筛选高质量数据,形成数据飞轮,迭代机器人智能底座能力。
生成式决策能更好地适应新任务、场景或异常情况,但存在跨 skill 泛化不足等问题,数据不足和分布偏差大时,仿真数据训练的机器人在真实场景应用效果差。所以未来的一大趋势就是提升生成决策大模型跨 skill 的泛化能力。
自演进机制有望在未来助力持续进化,通过自动化奖励函数,实现合成数据生成,跨越 skill 界限,增强复杂任务处理与环境适应性,最终实现无限可能。
因此未来目标首先是持续进化 Diffusion 能力,增进多模态输入、高效推理机制与跨任务泛化底座,同时进一步完善自演进机制,强化适应性。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk