小米汽车端到端VLA自动驾驶方案Orion,似乎在diss理想的MindVLA

B站影视 日本电影 2025-04-02 15:42 1

摘要:2025年3月中旬,小米汽车与华中科技大学联合发表论文:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generat

2025年3月中旬,小米汽车与华中科技大学联合发表论文:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation,共有10位作者,小米汽车占了一半。Orion来自hOlistic E2E autonomous dRiving framework by vIsion-language instructed actiON中几个关键词的缩写。

图片来源:论文ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

小米汽车列举了几种常见的端到端,a是传统经典端到端,即分段式模块化端到端。b是基于VLM的一段式或全局式端到端,即便是用英伟达Thor-X也无法落地,英伟达自己在机器人领域,运行一个仅仅20亿参数的VLM就使用了大约47000人民币的L40显卡模组,Thor-X的性能远远不及L40。c是能够落地的快慢双系统,VLM仅仅是辅助,差不多就是理想的MindVLA,也就是将VLM的推理空间信息输送到经典端到端的动作空间,最终的动作轨迹预测优化未能与VLM的推理互相结合。小米提出了第四种即d,将生成动作轨迹规划(预测)模块与VLM之间展开反向传播。反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。 该方法对网络中所有权重计算损失函数的梯度。 这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。

小米汽车Orion方案整体框架

整体上看似乎还是快慢双系统,实际是单一系统。理想的DriveVLM系统两条平行线,VLM只在最后路径规划即动作空间增强一下,小米汽车的做法是VLM只输入文本指令,这个指令也可以是语音命令,再转换为文本,也可以是默认的A点到B点的导航指令,QT-Former这个视觉空间或者说感知模块与VLM的推理空间建立长时间序列上的上下文注意力关系。VLM完成推理任务,包括场景描述、场景分析、历史回顾,同时也输出路径规划预测token,生成路径规划器即动作空间与视觉空间分开,只和推理空间互动。

小米汽车这里的LLM是META的Vicuna v1.5,这是2023年的开源大模型,其最大优势是可以免费商用。Vicuna一经推出就在各个领域产生了巨大的影响,因为其效果很好,并且提供匿名评测,受到了广泛关注,在各个评测排行上也占据前排。不过可惜的是,Vicuna是基于LLaMA-1微调的,由于LLaMA-1的限制,Vicuna不可用在商业上。而2023年8月发布的Vicuna1.5系列则是基于LLaMA2微调的,支持免费商用。Vicuna 1.5系列包含4个模型,与第一代相同参数的Vicuna 7B(1.5)、Vicuna 13B(1.5)以及在此基础上拓展的支持最高16K上下文输入的Vicuna 7B 16K和Vicuna 13B 16K两个模型。注意小米汽车用的只是LLM,而非经过特别视觉强化处理的VLM,也并未对自动驾驶领域任务做特别微调。

这里面的关键是小米提出的QT-Former,通常VLM要求输入的都是整幅前视图像或多视角图像,将图像token化,然后进行处理,高分辨率图像的token数量会带来很高的计算量,800万像素的话即便用上英伟达三万美元级的H100都无法做到10Hz,一般都要大幅度压缩,而小米显然不是。小米使用了Q-Former,将图像特征转换为LLM可以理解的近似语言的token,不仅降低了计算负担,同时也可以直接使用LLM,而非训练成本更高同时运算资源需求更高的VLM。

小米汽车Orion之QT-Former架构

小米汽车之所以能直接用LLM而非自动驾驶领域的VLM,主要就是靠QT-Former。QT-Former实际是Q-Former,T的意思可能是加入了时间序列元素。

由于视觉和语言是两种不同的模态,直接将预训练的图像编码器和LLM语言模型结合起来并不能保证它们能够有效地进行跨模态对齐。特别是,当大型语言模型在单模态文本数据上预训练后,在冻结其参数的情况下,很难与视觉信息进行有效的交互。因此,如何在冻结的单模态预训练模型之间架起桥梁,成为了一个关键的挑战。

2023年初有人提出了BLIP-2,BLIP-2 提出了一个通用且高效的预训练策略,能够从已存在的冻结图像编码器和大型语言模型中引导出强大的视觉-语言模型。核心思想是引入一个轻量级的Querying Transformer(Q-Former),在冻结的图像编码器和语言模型之间架起桥梁。Q-Former 被设计为一个信息瓶颈,负责从图像编码器中提取对文本生成最有用的视觉特征,并将其传递给大型语言模型。

Q-Former

图片来源:论文BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Q-Former 是一个轻量级的 Transformer 模型,包含一组可学习的查询向量(queries)。其架构由两个共享自注意力层的 Transformer 子模块组成:

图像 Transformer:与冻结的图像编码器交互,提取视觉特征。文本 Transformer:同时可以作为文本编码器和解码器。

这些查询向量通过交叉注意力层与图像特征进行交互,提取出固定数量且对文本生成最有用的视觉特征。Q-Former 的输出是这些查询向量的表示,记为Z。由于 Q-Former 的输出维度比图像编码器的输出特征要小很多(例如,32×768 vs. 257×1024),因此它起到了信息瓶颈的作用,只保留了对后续文本生成最有用的视觉信息。这种设计减轻了大型语言模型在冻结参数的情况下与视觉特征进行对齐的负担。

Q-Former第一阶段

在第一阶段,将 Q-Former 与冻结的图像编码器连接,通过图像-文本对进行预训练。目标是训练 Q-Former,使其能够提取与文本最相关的视觉表示。

Q-Former第二阶段

在第二阶段,将 Q-Former 输出的视觉表示连接到冻结的 LLM 上,训练 Q-Former 使其输出的视觉特征能够被 LLM 解释和利用。

2024年初,英伟达、华中科技大学和北京理工大学在BLIP-2上联合提出OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning。

OmniDrive Agent框架

图片来源:论文OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

小米汽车的Orion几乎全部沿用并在此基础上增加了一个历史query。

小米汽车的物理世界建模

图片来源:小米汽车杨奎元在英伟达2025 GTC大会上的发言

基本上就是用LLM取代了PolicyFormer,用Generative Planner代替了MotionFormer。

Generative Planner是借鉴了中科院自动化研究所的论文GenAD: Generative End-to-End Autonomous Driving。

生成式端到端与传统端到端对比

图片来源:中科院自动化研究所的论文GenAD: Generative End-to-End Autonomous Driving

GenAD的轨迹规划部分

小米采用了比较古老的VAE模型,解码器则与GenAD一样是GRU。VAE模型是Kingma(也是Adam的作者)大神在2014年发表的文章,是一篇非常经典,且实现非常优雅的生成模型,同时它还为bayes概率图模型难以求解的问题提供了一种有效的思路。论文原名为Auto-Encoding Variational Bayes,是一种通用的利用auto-encoding方法结合variational lower bound求解bayes图模型隐变量的方法论。

小米汽车使用一个两层MLP将输入状态即LLM输出的plan token和ground truth轨迹投射到高斯可变量隐性空间,用KL散度损失函数强制匹配分布。KL散度(Kullback-Leibler divergence,简称KLD),在消息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为消息增益(information gain),也称消息散度(information divergence)。KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。

小米在上海交通大学Bench2Drive测试平台上的得分

数据来源:小米汽车

显然比古老的UniAD之类的有大幅度提升,和最新的DriveTransformer比也有比较显著的提升,但这个测试平台用的人很少,大部分人还是使用nuScenes的开环评测。

考虑到LLM非常消耗运算资源,虽然指令的token数量很少,但QT-Former的token数量肯定不低,这个系统的实时性有待考证,70亿参数的话,即使用上英伟达的Thor-U,运行频率恐怕只有0.1Hz,远远达不到最低10Hz的标准。不过QT-Former实际也能与Generative Planner直接连接,这样就构成快慢双系统,LLM只是辅助,提供文字或语音的自动驾驶人机交互如动作解释等,也可以增强路径规划,这样即使0.1Hz也能落地。待将来运算和存储资源满足了,几乎无需任何改动就可以用全局端到端了。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐