摘要:文章很长,请耐心看完,我们先说结论,那就是特斯拉进入中国的FSD大概率使用了基于世界模型的全局端到端模型,这种模型很难添加针对交通规则约束的地图模块,要想适应中国的交通规则约束,特斯拉需要转换为模块化端到端,而模块化端到端的地图模块实际就是在线生成高精度矢量地
文章很长,请耐心看完,我们先说结论,那就是特斯拉进入中国的FSD大概率使用了基于世界模型的全局端到端模型,这种模型很难添加针对交通规则约束的地图模块,要想适应中国的交通规则约束,特斯拉需要转换为模块化端到端,而模块化端到端的地图模块实际就是在线生成高精度矢量地图,即大家常说的无图方案的起源。这种在线生成的高精度地图虽不是给人看的语义地图,也不是带有地理坐标的绝对位置地图,只是给自动驾驶导航和约束的矢量地图,但在2022年下半年开始也被认定是一种地图测绘行为,必须要经过国家测绘局批准的,特斯拉属于纯外资企业不大可能拿到测绘资质,特斯拉只能使用国内已经几乎没人用的有图方案,也就是百度车道级地图。
全局端到端和模块化端到端相比,全局端到端对数据依赖性低,可以使用非标注数据,数据成本低,可以少样本甚至零样本训练,适合新进企业或缺乏数据的企业。苹果最新的研究成果就是全部使用非真实采集数据训练16亿公里。模块化端到端和传统算法近似,需要大量人工标注数据,适合那些数据积累较多的企业。全局端到端简单分为世界模型和VLM两大类,也可以将两者结合。全局端到端隐式学习的思路很难添加显式结构性约束,也就是交通规则约束。模块式端到端异常灵活,可以任意添加辅助模块,轻松应对交通规则约束。全局端到端通常都参数规模很大,非常消耗存储资源和运算资源,帧率很低,无法做高频响应。模块端到端相对消耗资源少。全局端到端泛化能力更强,agent交互理解强,更容易避免碰撞。模块端到端则更容易贴近专家轨迹。全局式端到端可以借助LLM的东风,免费资源众多,只需要很少的研发人员,基本上都是仿真研究,研发成本很低。模块化端到端需要大量的传统算法工程师,研发成本高,免费资源几乎为零。
未来大概率是模块化端到端做基础方案兜底,全局端到端做轨迹规划增强或VQA任务。
图片来源:论文《End-to-end Autonomous Driving: Challenges and Frontiers》
很多人对模块化端到端有误解,既然都模块化了,怎么还是端到端呢,端到端不都是全局式样么?实际上模块化端到端才是目前接近落地的端到端的主流,全局端到端处于理论研究状态。
UniAD框架
图片来源:论文《Planning-oriented Autonomous Driving》
论文《Planning-oriented Autonomous Driving》作者有上海AI实验室、武汉大学和商汤,这是公认的端到端自动驾驶里程碑式的论文,也是模块化端到端的典型代表。它之所以叫端到端是因为,它只有一个Backbone骨干网,骨干网用来提取图像特征,一般是CNN架构,也有ViT的。UniAD采用BEV形式,即BEVFormer算法,传统模块算法是至少两个骨干网,一个骨干网意味着传感器传递的信息源头只有一个,没有出现断裂。然后UniAD用Query查询序列将五个模块连接起来,所有的模块都为路径决策规划服务。实际它是一个大的transformer架构,我们知道transformer的核心是注意力机制,注意力机制通过Q(Query),K(Key),V(Value)的设计,实现了对信息的有效筛选和聚焦。Q、K和V是注意力机制中的三个核心组件。它们都是从输入数据中派生出来的向量,用于计算注意力权重和输出结果。具体来说:
Q(Query)代表当前我们关注的目标,可以理解为需要查询的信息,简单理解为摄像头的输入。K(Key)代表一系列的候选项,简单理解为训练好的权重大模型,用于与Query进行匹配。V(Value)则是与每个Key相关联的内容,简单理解就是正确的输出路径规划轨迹。Q类似我们提出的搜索问题,目的是从大量信息中寻找相关答案;K类似信息库中的索引,它们决定哪些信息与查询相关;V类似实际的内容,是查询找到相关信息后的返回结果。没有注意力机制就是直接从Q得到V,直接从Q得到V会限制模型的表达能力和灵活性,因为它忽略了通过K来确定相关性的重要性,忽略了上下文,并且减少了模型处理信息的灵活性。
感知模块(目标检测+多目标跟踪+建图部分,TrackFormer、MapFormer),预测模块(MotionFormer、OccFormer)是基于骨干网的四个辅助任务抽头,最终输出是Planner,从某种意义上它也可以算一个大模型。每个模块都有一个损失函数,第一阶段去训练Perception模块,第二阶段冻结Perception模块,去训练Perception和Prediction和Planning所有模块。
串联模块端到端与并联模块端到端
图片来源:论文《DriveTransformer: Unified Transformer for Scalable End-To-End Autonomous Driving》
全局端到端,严格地说应该称为非模块化端到端,因为某些并联模块端到端也可以叫全局端到端。只不过除了学术圈,全局端到端一般都指非模块化端到端。
全局端到端大致可以分为VLM和世界模型两大类,并联模块化非常罕见,今天暂且不提。VLM也可以叫MLLM,即多模态大模型或者叫Foundation,简单理解VLM是在LLM基础上的大模型,进行了一些针对视频任务的SFT微调或RL微调。而做自动驾驶也需要针对自动驾驶任务做一些SFT微调或RL微调,其中SFT微调是强监督微调,RL是强化学习微调。有些时候,VLM和LLM不分。
典型VLM自动驾驶流程
图片来源:理想汽车
见上图,根据当前帧,观察即输入图像,通常是前视图像或者四到六张车辆周围图像,VLM对图像进行场景描述,然后分析场景,得出结论停着警车意味着前方有事故,给出分级路径规划,根据自车信息,给出决策和路径,决策是减速,路径是一系列waypoint坐标,利用坐标分解到车辆底盘控制器的横向与纵向控制,通常是MPC算法,根据MPC算法对车辆速度、航向角给出具体数值。
图片来源:零一汽车
上图是典型VLM自动驾驶,输入包括前方视频,自车状态(姿态,航向角,速度),全局导航命令,局部路径提示,全部输入对应编码器即Token化,然后输入VLM解码输出轨迹和文本,文本就是路径决策原因解释,图上左边的decoder显然是写错了,应该是encoder。
图片来源:长安汽车
长安汽车与众不同,输入六张,但不是BEV特征。
图片来源:论文《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》。
输入前方视频序列,经过编码即token化,投影然后与人类驾驶习惯对齐,进入VLM,同时输入文本指令,得出高维度决策,减速让行人安全过斑马线,低维度决策,输出五个waypoints坐标点。
图片来源:论文《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》
图中显示了VLM自动驾驶的训练过程,包括无需任何标注的车辆行驶轨迹数据集,开源的LingoQA问答集和本田汽车风险分析与驾驶建议数据集DRAMA,后面这两个数据集都可算是SFT微调。如果看论文的话会知道实际不止这两个数据集,还有 BDDX 、DriveLM 和 HAD数据集进行知识评估,这些全部开源。左右两侧的文本则显示了VLM自动驾驶的运作流程。
世界模型构成
图片来源:论文world model,发布于2018年,作者David Ha 和Jürgen Schmidhuber
VAE变分编码器,将图像转换为特征,MDN-RNN是核心,是根据历史(记忆)来推测下一步会发生什么,VAE和MDN-RNN输入到C即控制,输出预测的动作action,这个action和环境发生交互,这样就产生一个新的观测,相对下一个动作,这个action已经是历史,因此要输入MDN-RNN,如此循环不断。
世界模型典型代表
图片来源:论文《Dream To Control : Learning Behaviors by Latent Imagination》
第一部分,从过去的经验中学习未来的reward函数,第二步,从一个真实的模型状态state开始往后想象imagination,基于转移模型预测轨迹,预测奖励,基于所学习的策略,以最大化期望奖励为目标更新动作模型和值模型。通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然planet这种无梯度的方式能够较鲁棒地去减少model-bias,但并没有去提供对未来长期的期望规划。谷歌提出的这种基于梯度的,是在纯隐状态空间中现象的算法,用一种新的actor-critic算法去与所学的环境模型进行交互,因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。也就说这个强化学习是基于环境模型的,这就把世界模型从强化学习中独立出来,自成一派。它可以基于纯想象来训练模型。
强化学习的特点是无监督也就是无标注数据集学习,需要的样本很少甚至0样本,强化学习只能在仿真器里评估性能。世界模型就是输入agent历史信息预测agent下一时间戳的状态,这与端到端高度重合,端到端自动驾驶就是基于传感器输入和自我行为来控制车辆(即规划轨迹)。从形式上讲,给定历史传感器观测值和h个时间戳上的自我轨迹,端到端模型A预测了未来f个时间戳的理想自车轨迹,驾驶世界模型可以被视为一种生成模型,它将先前的观察和自车行为作为输入,生成环境的合理未来状态。
就世界模型而言,有两种定义:一种是纯粹预测未来,另一种是将行动预测与未来生成相结合。在强化学习和机器人领域,世界模型通常用于预测环境将如何响应agent的行为。这些模型可以基于各种数据(例如 RGB 图像、深度图像、点云等)来了解环境的行为并预测未来状态。生成领域再分为基于2D和基于3D Volume两种,2D是使用参考图像和其他条件(例如动作、HDMaps、3D框和文本提示)预测未来的驾驶视频。3D则是以点云或Occuancy的形式预测未来的状态。也有两者结合的3D视频形式,此外还有注重连贯性的加上时间序列的4D。
生成世界模型领域也有两大流派,一种是以Wayve的GAIA-1为代表,强调生成场景的多样性,生成长尾视频,有预测帧但没有控制信号。另外就是以国内理想、华为、极佳和浙大的3D和4D派,以DriveDreamer4D为代表,能够生成复杂的机动轨迹,通过明确地结合结构化条件即先验信息如HD Map和Bounding Box,确保了前景和背景元素的时空一致性。
典型的纯预测自动驾驶世界模型
图片来源:中科院论文《Enhancing End - To -End Autonomous Driving with Latent World Model》,这也是目前性能最好且效率最高的纯预测自动驾驶世界模型,没有之一。它可以基于无感知模块(BEV是典型的感知模块)也可以基于透视感知特征模块。
敬请期待下篇。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
来源:佐思汽车研究