端到端与VLA模型排名,谁是第一?

B站影视 内地电影 2025-08-26 22:36 1

摘要:目前端到端自动驾驶领域常见的性能测试有两大类,一类是在模拟器如CARLA中进行,规划的下一步指令可以被真实的执行,采用的是合成数据。第二类主要是在已经采集的现实数据上进行端到端研究,主要是模仿学习,参考UniAD,数据都是真实采集的。开环的缺点就是无法闭环,不

端到端测试方式

图片来源:网络

目前端到端自动驾驶领域常见的性能测试有两大类,一类是在模拟器如CARLA中进行,规划的下一步指令可以被真实的执行,采用的是合成数据。第二类主要是在已经采集的现实数据上进行端到端研究,主要是模仿学习,参考UniAD,数据都是真实采集的。开环的缺点就是无法闭环,不能真正看到自己的预测指令执行后的效果。由于不能得到反馈,开环自动驾驶的测评极其受限制,现在文献中常用的两种指标分别是:3秒内平均L2 距离:通过计算预测轨迹和真实轨迹之间的L2距离来判断预测轨迹的质量,3秒内平均Collision Rate: 通过计算预测轨迹和其他物体发生碰撞的概率,来评价预测轨迹的安全性。数据集大部分是沿用nuScenes。

数据来源:地平线与华中科技大学论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

目前Senna稳居全球第一,浙江大学与华为合作的Drive-OccWorld,L2是0.32米,碰撞率是0.29,Waymo的EMMA,L2是0.29米,碰撞率未公布,理想汽车与清华大学合作的DriveVLM的L2是0.31米,碰撞率是0.10,奔驰的DualVAD的L2是0.55米,碰撞率是0.22,吉利和鉴智机器人合作的GraphAD的L2是0.68米,碰撞率是0.12,博世的VLP-VAD的L2是0.55米,碰撞率是0.14,慕尼黑理工大学与路德维希-马克西米利安-慕尼黑大学合作的OpenDriveVLA也很优秀,应该是第二名,基于ST-P3和Qwen2.5-VL 70亿参数版L2距离为0.33米,碰撞率0.10,ST-P3是2022年的端到端模型,用较新的模型,OpenDriveVLA或许可以略超理想汽车的DriveVLM,这里提的所有测试成绩均来自相关论文。这也是国内最常见的端到端测试平台。

OpenDriveVLA框架

图片来源:论文《OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model》

OpenDriveVLA是一项非常稳健且务实的工程杰作。其核心优势在于解决根本性“模态鸿沟”的方式。传统的VLM在2D图像和文本上训练,它们天生缺乏智能驾驶任务所必需的三维空间和时间理解能力。OpenDriveVLA直面了这一挑战。OpenDriveVLA前端采用传统的BEV感知,然后将用于静态元素的Map Token,用于全局上下文的Scene Token,以及用于动态角色的Agent Token。通过专门的QFormer实现统一的。这种分层化的Tokenization为LLM提供了一种高质量、经过预处理的3D环境理解。这相当于在教VLM像一个经验丰富的老司机一样去‘看并且看懂’世界,而不仅仅是一个被动的观察者。有了这些先验信息,让大模型很难产生幻觉。

Waymo也有一套WOD-E2E,即Waymo Open Dataset End to End,采用Rater Feedback Score (RFS) ,Waymo重点关注长尾驾驶场景——即罕见但影响重大的情况,例如绕过马拉松比赛、与摔倒的滑板车骑行者发生碰撞,或与紧急车辆互动。该数据集包含4021个20秒的驾驶片段,其中2037个用于训练,479个用于验证。测试集仅包含部分观测数据用于预测。参赛者需要使用来自8个周围摄像头、过往车辆姿态和路线规划的输入,在鸟瞰图坐标系下预测5秒的路径点轨迹。提交结果主要通过“评估反馈得分”(Rater Feedback Score, RFS)进行评分,“平均位移误差”(Average Displacement Error, ADE)作为平均判定标准。

2025年CVPR有WOD-E2E比赛,洛桑联邦理工学院的UniPlan夺得第一,RFS是7.685。国内毫末智行也参加了比赛,模型为HMVLM,使用Qwen2.5-vl-3b版本取得了第三名的成绩,RFS是7.7367,但ADE成绩不如UniPlan。

除了开环测试,闭环仿真测试主要有三家,一家是基于CARLA的,一家是nuPlan的(nuPlan可以开环,也可以闭环),还有最近用的比较多的NAVSIM,NAVSIM的数据集是来自nuPlan。

CARLA的评估指标是驾驶得分,简称DS,它没有一个固定的驾驶分数计算公式(因具体的配置和任务可能有所不同),但一般来说,驾驶分数的计算方法涉及以下几个步骤和因素:

路线完成率(Route Completion),违规行为(Violation Score),衡量车辆在行驶过程中是否遵守交通规则。违规行为包括闯红灯、超速、未按规定变道、与障碍物或其他车辆发生碰撞等。安全性(Safety),定义:衡量系统在驾驶过程中的安全性表现,主要关注车辆是否在安全范围内行驶,避免了碰撞、急刹车、急加速等危险行为。舒适度(Comfort)定义:衡量自动驾驶系统是否能够提供平稳舒适的驾驶体验。舒适度通常关注车辆的加速、刹车、转向的平稳性。效率(Efficiency)定义:衡量自动驾驶系统在完成任务时的效率,是否能合理规划路线,避免绕行或无谓的耗时。

国内较少基于CARLA的模型测试,目前成绩最好的是商汤的传统分段端到端即ReasonNet,DS得分高达79.95,这还是2023年5月提出的模型,早期VLA的DS大多低于60,远低于基于规则的传统分段端到端。这一年来VLA奋起直追,小米汽车和华中科技大学合作的ORION,DS得分77.74。由CARLA延伸出来还有上海交通大学自建的Bench2Drive测试评估平台。

nuPlan提供了三个官方评估指标:开环得分(OLS)、非反应性闭环得分(CLS-NR)和反应性闭环得分(CLS-R)。尽管CLS-NR和CLS-R的计算方式相同,但二者在背景交通行为上有所不同。每个得分都是由一组罚分相乘的子得分的加权平均值。在OLS中,子得分考虑了在延长期间(8秒)内的平均和最终位移误差和航向误差。此外,如果预测误差超过阈值,罚分将导致该场景的OLS得分为零。同样,CLS中的子得分包括碰撞时间、沿着专家路线的进度、遵守速度限制和舒适度。CLS罚分包括有责任的碰撞、可行驶区域或驾驶方向的侵犯以及没有取得进展。这些罚分会导致CLS大幅减少,大多数情况下会降至零分,例如,当与车辆发生碰撞时。值得注意的是,CLS主要依赖于短期行动,而非一致的长期规划。所有得分(包括OLS/CLS)的范围是0到100,分数越高越好。国内很少使用nuPlan测试。

最后是NAVSIM,它延伸自nuPlan,NAVSIM是德国图宾根大学、上海AI实验室、英伟达、南洋理工大学、博世、Vector研究院、多伦多大学和斯坦福大学联合打造的基于数据驱动的自动驾驶车辆仿真器。详细可看论文NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking。

NAVSIM 是介于开环和闭环评测之间一种新的评测方案,旨在同时获得 NuScenes 这种开环评测集的数据丰富度,以及 NuPlan 这种数据闭环评测集的指标丰富度。Data-driven:NAVSIM 是基于 OpenScenes 数据集,经过筛选过滤得到。

Non-Reactive:NAVSIM 计算评测指标时,对每个场景(Scene),即一个视频片段,只取第 1 帧输入对应的轨迹输出,且不考虑其他 agent 和自车的交互。NAVSIM 框架本身和数据集无关。任何包含annotated HD maps, object bounding boxes, and sensor data 的数据集都可以转成 NAVSIM 格式,用来评测。NAVSIM 选择基于 OpenScenes 数据集制作标注数据集。这是一个 NuPlan 的子集,包含 120 小时的驾驶数据,以 2Hz 的频率进行采样。原始数据包含 8 个相机的原始图像(1920x1080)和从 5 个 LiDAR 传感器拼接得到的点云数据。

以前主流的nuScenes是为感知专门设计的,优先考虑的是感知场景的多样性和标注准确性,并不适用于规划任务。事实上,大约 75% 的 nuScenes 场景涉及简单的直线驾驶,其中仅基于运动自我状态(忽略感知)的 MLP 就可以实现最好的 ADE(平均位移误差)指标。NuScenes 仅支持开环评测(open-loop evaluation),常用 ADE/FDE 等简单的指标,无法评测安全性(safety)、舒适性(comfort)和驾驶完成度(progress)等更重要的指标。闭环评测(close-loop evaluation)支持这些指标的评测, 但又存在“领域差异(domain-gap)”问题 —— 闭环评测使用的合成传感器数据和真实世界数据的差距比较大,而且,因为计算量大,不具备可扩展性( Scalability)。

NAVSIM 只评测 4秒 的轨迹输出。这个时长对于闭环评测已经足够,仿真评测 planning 轨迹,需要模拟车辆真的按轨迹行进。在每个仿真迭代里,NAVSIM 用 LQR controller 来计算车辆的转角和加速度值,用一个 kinematic bicycle mode 即自行车模型来计算车辆在仿真模式下的位置。通过上面的仿真评测方式,NAVSIM 就可以得到 safety,comfort,progress 等闭环指标了。最后,参考 NuPlan 的做法把这些指标聚合成 PDM (Predictive Driver Model) Score。

惩罚项(penalties):保持安全和在路上,对路径规划任务是非常重要的,如果出现碰撞 road user(车辆、行人、骑行者等),或者偏离道路边界的情况,则设置 score_NC=0 或者 score_DAC=0,这会导致该场景下的PDMS 直接等于0。但也有一些特殊情况:对 Non-Reactive 的环境,情况不考虑被动碰撞的情况,比如自车静止被其他车撞了时不考虑。

EgoProgress(EP):指的是预测轨迹沿着 route center line 行进,EP被计算后会归一化到。特殊处理:PDM-closed Planner 会计算一个最大安全行进距离 (safe upper bound),如果这个最大安全行进距离只有 5m,就忽略低的或者负数进度分数。最后,把 EP 归一化到 0-1之间。

TTC 用来保证自车和他车的安全距离,默认为1 。在 4s 轨迹里,每个仿真迭代都假设速度和朝向在当前迭代是不变,如果此时自车TTC小于某个阈值,则设置 TCC为 0。

Comfort:就是比较轨迹里的 acceleration 和 jerk 是否在一个提前设置的阈值范围内。

最后,参考 NuPlan,给上述的 subscores 设置的权重分别为:weightEP = 5, weightTTC = 5, weightC = 2。

数据来源:理想汽车论文《TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving》

V代表视觉,L代表激光雷达。ReCogDrive和一些比较新的分段式样端到端比就差了不少。其使用的图像编码器是ResNet34,参数量是2180万,远低于大模型动辄几十亿的参数。理想汽车的TransDiffuser模型架构,主要是BEV感知加了一个去噪音扩散解码模块,激光雷达和摄像头融合做得非常好,这也是目前PDMS成绩最优秀的模型。也表明基于规则型的分段端到端,特别是加了激光雷达后,性能比一段式基于学习的VLA(几乎可以等同于纯视觉)性能明显要好不少。

目前性能最好的是加州大学洛杉矶分校的AutoVLA,详细可见论文AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning。

AutoVLA的PDMS成绩

数据来源:论文《AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning》

AutoVLA的CARLA成绩,高达78.84(见下图),对早期的VAD形成碾压态势。

AutoVLA模型框架

图片来源:论文《AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning》

四种典型的VLM对比

Auto-VLA的核心创新是将Action不以文本输出,而是将其token化,并提出codebook,和OpenDriveVLA一样,依靠规则消除大模型幻觉。

OpenDriveVLA和AutoVLA是目前VLA领域的巅峰之作,接下来我们会详细解读这两个目前最优秀的VLA。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐