小米汽车GTC分享:如何实现智驾「一年追三代」?

B站影视 韩国电影 2025-03-19 15:02 1

摘要:借着小米日前全量OTA推送最新智驾功能,他详细介绍了小米在打通高速、城区,泊车等不同场景、实现连续智驾背后的技术支撑,其中包括了物理世界探索和物理世界建模,以及工程落地优化。

在3月18日的GTC大会上,来自小米汽车自动驾驶与机器人部的专家工程师杨奎元,带来了主题为「端到端全场景智能驾驶」的演讲。

借着小米日前全量OTA推送最新智驾功能,他详细介绍了小米在打通高速、城区,泊车等不同场景、实现连续智驾背后的技术支撑,其中包括了物理世界探索和物理世界建模,以及工程落地优化。

探索物理世界的全新时代

他认为,根据机器对物理世界探索的参与程度,可以分为两大阶段,第一个探索阶段由人类主导,对物理世界的建模也主要依赖于人类的大脑。

在这一阶段,典型的信息处理机器(如计算机、手机)没有自主移动能力,要通过人类整理的文字、图像、视频等数字化信息,来获取物理世界的部分描述。得益于这些人类记录的海量数据,也驱动了近期大语言模型的迅猛发展。

然而,人类通常只会记录对自身有价值的信息,例如拍摄有纪念意义的照片,但这对物理世界的记录并不连续也不完整,也就限制了机器对物理世界的全面认知。

随着具身智能的发展,机器开始直接参与到物理世界的探索中。比如汽车、机器人等,它们通过传感器观测物理世界,通过执行器在物理世界中自主移动,从而得到更全面、更连续的物理事件描述。

通过这些海量、连续的多模态数据,可以训练更全面的AI模型,持续提升机器在物理世界中的适应能力。

打好数据驱动的基础

以小米汽车为例,目前其产品包括已量产交付近一年的SU7系列、刚刚量产交付的SU7 Ultra以及即将量产的YU7。

在设计这些车型时,出于对物理世界探索和实践高阶智驾的需求,小米从外观设计以及传感器选型和安装上,就保证了不同车型间的硬件一致性,进而保证了数据在不同车型的通用性,打好规模化探索物理世界的硬件基础。

具体来讲,为了实现环境的完整观测以及全场景智驾功能,(如泊车场景的近距离盲区覆盖,高速场景的远距离探测,城区更宽入口的横向覆盖等),小米汽车在车身周围全系标配了11颗高清摄像头,形成车身周围360度无盲区的覆盖,高配版本也增加了前向激光雷达。

目前,参与物理世界探索的SU7车队规模已经超过18万辆,车队规模以每月超过2万辆的速度快速增长。去年年底,车队每天行驶总里程超过500万公里,目前每天行驶总里程已经接近1,000万公里。

当然,不同路段的覆盖频次并不相同,驾驶里程的快速爬升也带来了全场景数据的快速累积。

目前,小米已经打通全场景智驾的4个关键能力场景:停车场,ETC收费站、城区环岛、乡村道路。

杨奎元介绍称,端到端模型需要的训练数据,以连续的视频片段Clip为单位,每个Clip包含20秒左右的连续传感器数据。

在去年9月采用端到端模型训练时,小米使用了238万Clips,经过4个月的积累,训练数据已经增加到了1360万Clips,这也是小米下一个千万Clips端到端版本所用的训练数据量。

物理世界建模的「三大层」

有了丰富的物理世界数据后,第二部分就是物理世界建模。

小米将整个建模分为三层,第一层即为“Ot”(编者注:Data Observation Layer)原始的数据观测层。该层通过车身上多个高分辨率传感器,详细记录真实场景当前状态。

第二层即为“Zt”(编者注:Latent Feature Layer),是深度神经网络的隐式特征层,通过数据驱动的方式,形成对当前场景的理解。

第三层即为“St”(编者注:Explicit Symbol Layer),这是方便人理解和操作的显示符号层——由于数据观测层属于底层表达,机器无法直接理解,需要通过模型生成更高层的理解,用于决策规划,也就是隐式的特征表示。

中间这幅图是在BEV空间,将高维隐式特征通过PCA降维后生成的可视化,方便人理解以及对接人工规则代码

在这一层,模型会解码出显式的符号表达,如静态的车道线斑马线等动态的行人车辆等,这些也是监督学习中,人工增值标注或者自动化增值标注的表达形式。

在端到端范式中,还会解码出自身的规划轨迹,比如在上图右一的场景中,绿色轨迹线代表了合理安全的礼让行为,红色轨迹线则代表了危险的不礼让行为。

不过,「三层建模」只是一种粗粒度的划分,每一层内部还可以细化为更多的层。比如图像金字塔中的多层分辨率图像,深度神经网络中不同隐层的特征表示等。

对于上述物理世界建模的三层表示,其具体对应的是深度神经网络中的输入层、隐式特征层和输出层——

数据观测层作为神经网络的输入者,其中包含了图像点云以及领航功能所需的导航信息,它们通过BEV编码网络得到隐式的特征表达;‍

隐式特征层通过不同的解码器,可以分别得到动态元素、静态元素以及自身的未来轨迹,其中动态元素在场景中分布较为稀疏、局部,且个体运动状态不同,需要单独维护各自的历史信息。

基于此,小米使用带有Memory的Sparse方案(编者注:稀疏特征建模)进行建模,静态元素则采用了相反的Dense方案(密集建模方案)进行建模。

“轨迹是在充分考虑了动静态信息之后解码生成的,最终还要通过人工设计的cost,融合其他障碍物计算的碰撞cost、车道线计算的偏离车道cost,以及横纵向计算的舒适性cost,共同用于约束轨迹的合理性。”杨奎元说道。

整个神经网络的训练,由人工定义在最后一层的Loss函数,其中包含动静态元素和真值之间的差异支撑。

「三大层」的作用及进展

杨奎元从下到上深入解读了「数据观测层,隐私特征层,显示符号层」:

数据观测层典型的信号就是视频流。目前,已经有了相对成熟的AI技术可以使用——如3GDS重建技术、Diffusion,Autoregression等生成技术,其中就有Sora、英伟达的Cosmos等生成大模型。

通过直接拟合原始数据的概率分布,加上额外使用隐式特征、显示符号等控制条件,就可以进行原始信号的生成。

他表示,这些模型目前生成速度较慢,主要在云端仿真物理世界,用于感知的闭环仿真评测,以及长尾数据的生成。

这些生成模型通常也需要使用隐式特征,但主要侧重于传感器细节信号的恢复。它们在理解任务上性能欠佳,不过最近也有一些工作开始尝试开发「同时用于生成和理解的隐式特征空间」。

由于和模型相关,直接基于隐式特征层进行持续预测的工作还不多。在智能驾驶领域,目前还没有成熟的相应基座模型,可以用于生成稳定的特征表达。

显示符号层类似自然语言表达,人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,可以通过规则代码的方式和模型结合,完成时序上的建模。

例如,后处理经常使用的运动学模型,如匀速模型、匀加速模型等,还有规控常用的轨迹采样搜索和优化等。在端到端范式中,显式符号层也可以用于显式定义cost,对应强化学习中的Reward驱动策略学习。

联合「三层」进行时序建模

最近,几家学研机构及企业在显示符号层通过增大数据量,也验证了Scaling Law对智驾任务的有效性。

结合各层时序建模的优秀实践,小米也在尝试将三层表达联合起来进行时序建模。

杨奎元表示,在车端推理时,预测未来帧的传感器数据不是必选项。

在云端训练时,离线录制的未来帧数据,便可以提供模型训练的自监督信号。由此,在深度神经网络模型上,将中间的隐式特征在时序维度上拓展到未来帧,由此形成完整的时空神经网络模型,统一由数据驱动学习。

具体来说,由于动静态元素在未来帧的变化方式不同,静态元素的变化主要和自车运动相关,而动态元素的变化则由它们各自的运动和自车运动共同决定。因此,在未来帧预测变化时,小米同样对动静态元素分开处理。

为了使得上述模型在云端能够高效训练,在车端能够高效推理,小米联合英伟达进行了大量的工程优化。

在云端优化上,基于英伟达Triton重构云端推理Pipeline,可将自动化标注大模型推理的利用率提升了一倍。

基于DALI、CV-CUDA优化训练瓶颈,小米将GPU率利用率提升了30%。

另外,由于车端算力相对有限,小米在模型设计时充分考虑了数据的内在特性,如稀疏性、2D到3D几何的对应关系等,减少了模型不必要的连接。

另外,在最新的Thor平台上,整体性能相对初个部署版本加速了一倍。为了进一步减少GPU的算力消耗,小米将图像前处理,点云数据压缩,offload的到了VIC、ISP等异构计算单元上。

在去年年底的技术发布会上,雷军首次公开了物理世界建模的几项关键技术。其中包括适用于不同场景的变焦BEV技术、应对一般障碍物的超分辨率Occ技术,以及感知决策一体化模型等。

基于物理世界建模能力的提升,加上相应的工程落地优化,2024年小米在智能驾驶上实现了「一年追三代」的快速追赶——从基于高精地图模块化架构,到去高精地图模块化架构,再到端到端架构。

在场景拓展方面,去年3月份量产交付时,SU7全系搭载了高速领航、主动安全、代客泊车、辅助泊车等成熟刚需功能。在后续OTA升级中,首先开通了十城的城区领航,经过三个月拓展到了全国都能开,以及最新全量推送的端到端全场景智驾。

目前,小米正在持续开发基于「千万clips」的端到端版本。

总结来看,小米汽车对于交通场景具备高阶智驾能力的量产车,已经具备了规模化探索物理世界的能力,形成了必要的数据基础同时,借助数据驱动的深度学习模型,已经具备系统化建模物理世界的三层时序模型框架。

在上述物理世界建模能力的基础上,小米持续交付的智驾功能有相对简单的高速泊车场景,拓展到了复杂的城区场景,近期打通了各场景,形成了全场景车位到车位的完整体验。

来源:RoboX

相关推荐