特斯拉全局端到端走不通理想与地平线VLA加入diffusionpolicy进化

摘要：【观点：全局端到端除了太消耗运算和存储资源外，还很难添加辅助模块，如应对交通规则的地图模块，特斯拉就是因此几乎完全无法适应中国的交通规则。模块化端到端将是主流，至少在违反交通规则处罚力度和广度都很强的中国如此，某种意义上讲还是快慢双系统，快系统是diffusi

【观点：全局端到端除了太消耗运算和存储资源外，还很难添加辅助模块，如应对交通规则的地图模块，特斯拉就是因此几乎完全无法适应中国的交通规则。模块化端到端将是主流，至少在违反交通规则处罚力度和广度都很强的中国如此，某种意义上讲还是快慢双系统，快系统是diffusion planner或policy，慢系统是LLM或VLM。】

经典VLA流程

图片来源：论文《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》

输入前视视频序列，VLM大模型对视频理解、分析、提出驾驶建议，生成waypoint轨迹规划，基本上一个VLM完成了所有任务。

端到端自动驾驶技术演进快速，从最初UniAD的模块化分段端到端，半年后就演变为基于VLA的全局式端到端和快慢双系统端到端。而近期端到端再演进，VLA与特征提取模块结合，与传统的LLM而非VLM对齐，LLM做推理。轨迹规划或者说路径规划阶段采用DiT即扩散与Transformer结合，呈现三段式模块化端到端。

地平线的SENNA

图片来源：论文《Senna: Bridging Large Vision-Language Models and End-to-end Autonomous Driving》

SENNA是目前开环测试端到端智能驾驶全球第一名，多模态大模型即VLM在大规模驾驶数据上微调，以提升其对驾驶场景的理解能力，并采用自然语言输出高维决策指令，然后端到端模型基于大模型提供的决策指令，生成具体的规划轨迹。VLM消耗运算资源惊人，难以做到高频率响应，应该使用VLM的决策指令，可以最大利用其在语言任务上预训练的知识和常识，生成合理的决策，并且避免预测精确数字效果欠佳的缺陷；另一方面，传统模块化端到端和传统算法模型更擅长精确的轨迹预测，将高维决策的任务解耦，可以降低端到端模型学习的难度，提升其轨迹规划的精确度。

一般VLA直接将前视图像token化之后输入VLA模型，如果是高分辨率图像的话，token数量太多，即使用英伟达H100也难以做到最低10Hz的下限。如果将图像提取特征，token数量会大幅度减少，但这样会增加一个特征提取模块，通常就是BEVFormer，这样就又回到了模块化分段端到端。

世界模型和Diffusion Planner出现了，Diffusion Planner参数规模小，结构简单能够做到高频响应，与世界模型或者强化学习结合训练也更为容易。目前，单纯Diffusion Planner基本上能做到90分，有些强化学习，如苹果的自我博弈接近满分，于是人们想到结合LLM和Diffusion Planner或者Diffusion Policy，既有高性能又有高效率，典型代表就是理想汽车的MindVLA。小米的Orion也类似，轨迹规划模型用了GRU生成式。

理想汽车MindVLA

图片来源：理想汽车

理想汽车的VLA与传统意义的VLA完全不同。传统VLA即Vision Language Action，可以看做是多模态大模型即VLM的延伸，VLM主要做VQA任务，基本就是看图分析回答问题，加入针对自动驾驶监督微调后增加一个输出waypoint的任务，即Action，也就成了VLA，是一个整体。理想汽车的MindVLA这里显然不是，它分为三个模块。

第一个模块是感知模块，或者说世界建模或者说环境特征提取。

理想汽车环境感知模块

图片来源：理想汽车

理想汽车采用了高斯中心的4D稀疏表示，目前自动驾驶感知领域现有方法采用密集表示（例如，BEV鸟瞰图）或稀疏表示（例如，实例框instance bounding box）进行决策，这些方法在全面性和效率之间存在权衡。理想汽车探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛但稀疏地描述场景，也就是token数量很少。用均匀的3D高斯初始化场景，并使用周围视图图像逐步完善它们以获得3D高斯场景表示。然后使用稀疏卷积来高效执行3D感知（例如，3D检测，语义地图构建）。

高斯分布类似语言在LLM领域的token分布，两者可以比较容易对齐，因此不使用VLM。

图片来源：小米汽车论文《ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation》

小米汽车用QT-Former取得与理想汽车近似的效果，引入一个轻量级的Querying Transformer（Q-Former），在冻结的图像编码器和LLM语言模型之间架起桥梁，也不需要用VLM。

图片来源：理想汽车

理想汽车的Diffusion Planner与RLHF（人类反馈强化学习）联合训练，扩散模型（Diffusion Model）通过利用大规模离线数据对轨迹分布进行建模，能够生成复杂的轨迹。与传统的自回归transformer规划方法不同，基于扩散的规划器通过一系列去噪步骤可以整体生成完整轨迹，无需依赖前向动力学模型，有效解决了前向模型的关键局限性，特别适用于具有自动驾驶长周期或稀疏奖励的规划任务。扩散模式最早出现在视频生成领域，即用文本生成视频。

扩散模型在经典的智能体 - 环境 - 经验回放池循环中与以往解决方案相比起到不同作用的示意图

图片来源：论文《Diffusion Models for Reinforcement Learning: A Survey》

扩散模型在强化学习中的角色

强化学习中的规划是指通过使用动态模型在想象中做决策，再选择最大化累积奖励的适当动作。规划的过程通常会探索各种动作和状态的序列，从而提升决策的长期效果。在基于模型的强化学习（MBRL，就是世界模型）框架中，规划序列通常以自回归方式进行模拟，导致累积误差。扩散模型可以同时生成多步规划序列。现有论文用扩散模型生成的目标非常多样，包括 (s,a,r)、(s,a)、仅有 s、仅有 a 等等。为了在在线评估时生成高奖励的轨迹，许多工作使用了有分类器或无分类器的引导采样技术。

在扩散策略领域，更类似于无模型强化学习。Diffusion-QL 首先将扩散策略与 Q 学习框架结合。由于扩散模型拟合多模态分布的能力远超传统模型，扩散策略在由多个行为策略采样的多模态数据集中表现良好。扩散策略与普通策略相同，通常以状态作为条件生成动作，同时考虑最大化 Q (s,a) 函数。Diffusion-QL 等方法在扩散模型训练时加上加权的价值函数项，而 CEP 从能量的视角构造加权回归目标，用价值函数作为因子，调整扩散模型学到的动作分布。

扩散模型的引入有助于离线强化学习策略拟合多模态数据分布并扩展了策略的表征能力。Diffuser 首先提出了基于分类器指导的高奖励轨迹生成算法并启发了大量的后续工作。同时，扩散模型也能应用在多任务与多智能体Collective Modeling强化学习场景。

清华大学联合毫末智行、中科院自动化所、港中文、上海交大、上海人工智能实验室的发表于ICLR 2025的论文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》，也是diffusion做路径轨迹规划的一个例子。

Diffusion Planner架构

图片来源：论文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》

Diffusion Planner架构考虑了周围车辆的历史信息、道路信息和静态障碍物，设计了简洁的编码器结构用于信息提取，并通过交叉注意力机制与加噪后的自车和周车轨迹进行信息交互。此外还引入了额外的导航信息以及扩散模型特有的加噪步数信息。为了避免模型重复自车历史行为导致闭环性能下降，仅考虑自车当前时刻的位置和朝向，并与周车的当前状态一起拼接到加噪轨迹中。通过这种方式，起始状态的引导还能进一步降低模型对未来轨迹生成的难度。

nuPlan数据集上的diffusion planner测试成绩，相当不错（见下图），据悉运行频率可以到20Hz。

数据来源：论文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》

2025年3月，地平线和华中科技大学联合发表论文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》，与清华大学Diffusion planner思路差不多，地平线还考虑了前端感知。

DiffusionDrive架构

图片来源：论文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》

DiffusionDrive在英伟达NAVSIM数据集上的得分和帧率对比

数据来源：论文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》

参数只有6千万，在RTX4090上能够做到45Hz，用双Orin的话估计可以做到5-10Hz，已基本可以落地了。

英伟达的机器人通用VLA大模型GR00T-N1架构

图片来源：英伟达

和理想的MindVLA类似，不过英伟达把Action部分单独算一个系统，且与VLM是并行的，采用的是DiT模式，即Diffusion，不过骨干网用Transformer取代了U-NET。英伟达称其为快慢双系统，快系统就是Diffusion Action，最高可到200Hz，慢系统就是VLM（用阿里的Qwen2.5做基础模型），用英伟达的L40显卡（加上CPU大概5万人民币），运行频率10Hz。

全局端到端除了太消耗运算和存储资源外，还很难添加辅助模块，如应对交通规则的地图模块，特斯拉就是因此几乎完全无法适应中国的交通规则。模块化端到端将是主流，至少在违反交通规则处罚力度和广度都很强的中国如此，某种意义上讲还是快慢双系统，快系统是diffusion planner或policy，慢系统是LLM或VLM。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

来源：佐思汽车研究

标签：特斯拉端到端 vla ll diffusionpolicy

本文地址：http://news.43b.com.cn/a/1141778.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!