摘要:智能驾驶技术大步朝向端到端方向发展,其技术迭代牵动着整个智驾行业的神经。从整体结构而言,端到端技术路线可分为全局端到端和模块化端到端。
1. 关于端到端
智能驾驶技术大步朝向端到端方向发展,其技术迭代牵动着整个智驾行业的神经。从整体结构而言,端到端技术路线可分为全局端到端和模块化端到端。
全局端到端简单分为世界模型和VLM两大类,通常都参数规模很大,非常消耗存储资源和运算资源,帧率很低,极难做高频响应;全局端到端泛化能力更强,agent交互理解强。
模块化端到端和传统算法近似,可以任意添加辅助模块,轻松应对交通规则约束;模块端到端相对消耗资源少,泛化能力较弱。
实际上模块化端到端才是目前接近落地的端到端的主流,少数企业在研究全局端到端。(特斯拉也许用了全局端到端,但公开信息极少;蔚来计划上线世界模型)。在国内,华为ADS 3.0被公认为领先的智驾系统。其采用的技术路线为模块化端到端。
华为 ADS 3.0架构
本文从产业界来分析端到端技术对数据的要求,主要涉及数据的规模、质量、多样性、实时性和闭环反馈等方面。
2. 数据规模
端到端智能驾驶依赖深度学习模型,这些模型通常需要海量数据进行训练。特斯拉依赖于其全球数百万辆配备摄像头和传感器的汽车,持续收集行驶数据,来训练FSD(Full Self-Driving)系统。在马斯克曾经在财报会中提到训练模型所需的数据:“100 万个视频训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 “嚯!”;到了 1000 万个,就变得难以置信了。”
特斯拉数据引擎框架(来源于网络,小隐绘制)
要求:
百万到数十亿公里级别的数据,涵盖不同天气、光照、路况、交通流量等复杂环境。3. 数据质量
高质量数据对于端到端学习至关重要,尤其是标注数据。传统自动驾驶(如Waymo)通常依赖高精度地图和精确标注的3D点云数据。特斯拉以及国内OEM都在摒弃高精度地图,转向“视觉优先”策略,要求神经网络能够端到端理解环境。依赖自动标注系统来减少人工干预,提升数据质量。自动标注可以取代 500 万小时的人工作业量,人工只需要检查、补漏极小的部分。
要求:
准确性:误标数据可能导致学习偏差,影响安全性。去噪:过滤传感器误差、低质量数据(模糊、遮挡等)。一致性:同一场景在不同时间点的数据应保持合理一致性,以便网络泛化。从整个行业来看,通过自监督学习技术提升数据质量是一个新趋势。英伟达通过EmerNeRF的自监督学习技术提升了数据标注的效率和可靠性。
EmerNeRF通过引入静态场、动态场和运动流场(flow fields)三个神经场来分解场景,从而实现对复杂场景的有效学习。
EmerNeRF分解和重建管线
静态场负责标注建筑物、标志和路灯等静止元素,动态场则表达所有移动物体,而流场则模拟动态物体的运动并用于时间上的动态特征聚合。最重要的是,EmerNeRF能够从原始数据中自动学习这些场景,而无需任何人工标注。完成学习后,模型能够同时呈现场景的时间和空间变化,进而实现静态场景和动态物体的高保真重建。通过这样的技术,可以帮助量产企业在端到端自动驾驶中进一步提升训练量,获得更多先机。
4. 数据多样性
端到端模型需要应对复杂多变的驾驶环境,因此数据必须具有广泛的场景覆盖:
地理多样性:如城市、高速、农村道路、山区等。天气条件:晴天、雨天、雪天、雾天等。交通规则差异:不同国家和地区的交通法规、标志、驾驶习惯不同。长尾场景:极端情况(行人突然闯入、动物穿越、突发事故等)往往是自动驾驶的难点,特斯拉使用“影子模式”捕捉这些案例,并用于训练。要求:
对于全球车型,需要采集全球范围数据,涵盖不同文化和法规。强化学习特别关注“长尾问题”数据,避免模型在Corner Case下失效。特斯拉FSD在2025年度进入中国以来,多家机构对其进行了评测。从他们的测评反馈来看,FSD在中国的性能表现适中,尽管基础驾驶能力表现优秀,但是在红绿灯识别、交通规则遵守、人车混流场景下暴漏较多缺陷。出现这种情况的主要原因是数据多样性差异带来的影响。(FSD基本上没有采用中国道路交通数据来训练模型。)
5. 数据实时性
智能驾驶系统需要不断更新数据以适应新的驾驶情况。当测试车辆较多时,需要对有价值场景进行筛选、压缩并进行高效传输。特斯拉的FSD Beta版本采用了快速迭代策略,其数据管道可以自动发现并收集“有价值的案例”来改进模型。端到端学习的特性决定了它对实时数据反馈的依赖度更高。例如在特定驾驶环境下模型出现错误时,系统需要快速回收数据、分析问题,并通过OTA更新模型。
要求:
数据收集、处理、训练、部署要具备高效能力。通过自动化场景识别和筛选机制,高效蒸馏场景数据,快速获取有效数据用于模型训练和评测。6. 闭环数据反馈
端到端驾驶的核心优势在于数据驱动的闭环学习。
影子模式的应用:即便ADS未真正接管驾驶,系统仍然可以在后台运行,记录模型决策 vs. 人类驾驶员决策的差异,如果发现偏差,则将该场景数据回传并用于模型优化。特斯拉影子模式
数据增强和仿真:特斯拉、英伟达、蔚来、小米等公司使用神经网络生成仿真数据(Neural Rendering),Waymo等公司则构建大规模虚拟测试场景,用于模型微调。特斯拉通过仿真来训练模型
高置信度合成虚拟场景(aiSim)
要求:
数据挖掘:自动识别低表现区域,提高模型收敛速度。仿真能力:使用高保真模拟数据,提高数据利用率。7. 总结
与传统算法依赖于规则和有限的场景数据相比,端到端智能驾驶方案侧重于数据驱动,通过大规模数据集的训练来优化模型性能。端到端智能驾驶对数据的要求极为严苛,包括:
大规模数据:涵盖数百万到数十亿公里的驾驶数据。高质量标注:减少人工干预,提高标注准确性和效率。场景多样性:涵盖各种路况、天气、地理环境等。实时性:快速收集、分析、优化并OTA更新。闭环反馈:自动发现问题数据并优化模型。来源:一梦栖