从特斯拉FSD和华为ADS看端到端演进历程

B站影视 韩国电影 2025-09-25 17:03 2

摘要:早期探索(1988-2018):端到端的理念可以追溯到1988年卡内基梅隆大学的ALVINN系统,这是早期神经网络在自动驾驶上的应用尝试,通过相机和激光测距仪输入生成转向指令。2016年,英伟达发布DAVE-2系统,将端到端推向一个更高的里程碑,它演示了如何用

端到端自动驾驶模型的发展,是一个从概念萌芽到技术突破,并最终走向规模化应用的历程。

一、端到端演变阶段

1、早期探索(1988-2018):端到端的理念可以追溯到1988年卡内基梅隆大学的ALVINN系统,这是早期神经网络在自动驾驶上的应用尝试,通过相机和激光测距仪输入生成转向指令。2016年,英伟达发布DAVE-2系统,将端到端推向一个更高的里程碑,它演示了如何用卷积神经网络(CNN)直接从摄像头图像映射到转向指令,推动了端到端概念在GPU计算时代的发展。2017年,Wayve成立,展示了端到端模型在复杂城市环境中快速学习的潜力。同年,Comma.ai发布的OpenPilot则首次实现了端到端技术的商业化落地。

2、技术突破(2019-2023):该阶段关键在于新架构的引入和大模型的应用。特斯拉在2021年推出BEV(鸟瞰图)和Transformer架构,有效解决了多摄像头数据融合和全局上下文理解难题,为感知侧端到端化铺平道路。2023年,特斯拉发布FSD V12,正式采用一体化端到端架构,实现了驾驶体验质的飞跃,推动整个行业技术转型。同年,商汤发布UniAD模型,也展示了全栈Transformer在整合感知、预测与规划方面的强大能力。

3、规模化应用(2024及以后):2024年后,端到端技术开始从演示走向大规模量产。华为ADS 3.0(模块化端到端)和小鹏XNGP等系统在2024年开始陆续上车,标志着端到端智驾进入商业化落地阶段。

二、传统智驾算法VS端到端大模型

传统自动驾驶算法采用模块化部署,功能实现依赖众多独立小模型叠加。感知模块作为“眼睛”,借助摄像头、毫米波雷达、激光雷达等各类传感器收集环境信息,转化为数字信号传输至车载计算机;决策规划模块如同“大脑”,运用机器学习、深度学习、神经网络等算法,分析感知信息,预测移动障碍物轨迹,规划最佳行车策略并发出指令;控制模块相当于“四肢”,依据指令通过控制单元完成车辆的启停、加减速、避让、转向等操作。

在模块化运作模式下,各模块算法彼此独立,一个模块即为一个模型,各项功能的实现是各种模块模型层层堆叠的结果。这在应对大量“长尾场景”时,暴露出一大问题,即泛化性差。因为,各种任务解耦会导致各模块相对驾驶规划最终目的(即,什么样的情况下需要执行层做什么幅度动作)存在信息损耗,同时模块之间沟通也存在信息传递误差。这样,不仅加剧算力负担,还需系统耗费大量精力处理长尾场景。

而基于AI大模型训练打磨的端到端模型将感知、决策规划以及控制等所有环节深度融合,构建起一体化模型体系,这其实已经向“类人脑”的感知决策系统靠近了。端到端无需复杂的中间步骤,便能快速生成可接受的“类人脑”驾驶指令。

三、特斯拉引领端到端大模型上车

不得不说,特斯来一直是智驾方案的市场引领者,其智能驾驶技术经历了四次重大变革,每一次都引领智驾市场,也帮助端到端大模型上车实现突破。

1、2013~2018年:2D直视图+CNN(卷积神经网络)

早在2013年特斯拉即探索智驾技术,期间也与Mobileye合作,2016年开始自研算法。这段时期,2D直视图+CNN是汽车智驾算法主流,模型将2D图像通过CNN进行“后融合”,通过大量计算统一升级到3D。然而,CNN算法存在局限性:一是需要大量标记,但获取足够多样化驾驶场景数据具有难度;二是后融合对算力需求较大,泛化性一般;三是后融合精度不高,且高度和深度信息不准确。

2、2019~2020年:引入BEV+Transformer算法,采用特征级融合取代后融合。

BEV生成围绕车辆的俯瞰图,使车身至于世界坐标系下。Transformer挖掘不同元素之间的联系和关联以提取多模态数据特征,同时并行训练数据。

3、2021~2022年:在BEV + Transformer基础上引入占位网络(Occupancy Network)

占位网络可直接感知3D空间中的体素(Voxel),将周围环境划分为多个大小相同的立方体,进而判断是否存在障碍物。占位网络不再试图识别每一个物体的具体类别,而是直接预测空间是否被占用,识别速度快、感知效率高、空间识别结果更精准。BEV + Transformer + OCN算法大幅提升纯视觉方案的感知能力,带动感知范围、精度、维度、稳定性等多方面效果大幅提升,应对复杂道路、恶劣天气、动态交通的能力增强。同时,在BEV空间层中,多模态数据统一调整为以自车为中心的同一坐标系中,规控模块提取更高效,为“端到端”大模型打下基础。

4、2023.08至今:特斯拉发布的FSD V12正式采用一体化端到端架构,用单个神经网络替代了超过30万行代码,实现了驾驶体验质的飞跃。

四、华为ADS引领国内智驾走向“类人脑”决策新高度

BEV + Transformer的发展突破大幅提升了自动驾驶算法的泛化能力,进一步推动了去高精地图化,国内头部企业迅速跟进,其中不得不提的就是华为ADS(Autonomous Driving Solution)。华为ADS发展历程清晰地展示了智能驾驶技术从规则驱动到数据驱动,并最终迈向世界模型驱动的演进路径。其端到端模型的引入和深化是提升系统性能、实现更类人驾驶决策的关键。

1、ADS 1.0:技术验证与高精地图依赖(2021年)

2021年,华为发布ADS 1.0并首发搭载于极狐阿尔法S HI版。该版本是华为智能驾驶的起点,其核心特点是多传感器深度融合和高度依赖高精地图。算法为BEV + Transformer架构,实现3D场景感知。但其功能主要聚焦于高速领航辅助(NCA,即,高快NOA)和基础自动泊车(APA),且由于高精地图的更新成本和高覆盖率要求,城市拓展性受限。此阶段尚未引入端到端模型,系统仍属于传统的模块化架构,各环节(感知、决策、规划)相对独立。

2、ADS 2.0:“无图化”突破与感知革新(2023年)

2023年4月,ADS 2.0随问界M5智驾版发布,其最大突破在于“无图化”。算法核心在于GOD(Generalized Occupancy Network,通用障碍物检测)网络的应用(对标特斯拉Occupancy Network)。GOD通过将环境划分为网格并判断每个网格的占用状态,能有效识别锥桶、异形障碍物等非标准目标,大幅提升了系统在复杂城市环境中的泛化能力。虽然ADS 2.0的主要革新在感知层,也未引入端到端模型,但其提供的更强大、更通用的感知结果,为后续端到端决策规划模型的引入打下了坚实基础。

3、ADS 3.0:端到端架构正式落地(2024年)

2024年4月发布的ADS 3.0是华为智驾发展的重要里程碑,其核心特征是引入端到端模型,实现了感知与决策规划的更深层次融合。架构采用“GOD感知网络+PDP(Prediction Decision Planning)决策网络+本能安全网络”的三层架构。其中,PDP网络将预测、决策、规划三个原本独立的模块融合为一个端到端模型,大幅简化了处理流程。端到端模型的引入,使得决策延迟从185ms降低至65ms,复杂路口通过率超过96%,重刹率减少15%,平顺性提升50%。系统决策更接近人类老司机,具备了一定的博弈能力,也实现了“车位到车位”(P2P)的全场景辅助驾驶。

4、ADS 4.0:世界模型与L3级驾驶(2025年)

2025年4月发布的ADS 4.0代表华为智驾的最新方向,其核心是从“端到端”迈向“世界模型(WEWA架构)”。

WEWA由云端World Engine(世界引擎)和车端World Action Model(世界行为模型)组成。World Engine利用扩散生成模型(Diffusion Model)技术,在云端自动生成如“鬼探头”、前车急刹等极端、罕见的长尾场景数据,以“AI训练AI”的方式攻克传统数据采集的难题。World Action Model:车端原生基模型,具备多传感器全模态感知能力,并引入MOE(Mixture of Experts)多专家系统,针对不同场景调用最优“专家”策略。

五、端到端模型的核心驱动和挑战

端到端模型的发展得益于数据、算力、算法的共同进步,同时,这三项基本因素也是端到端模型发展的巨大挑战。

1、数据,端到端模型的燃料

端到端算法基于数据驱动,依赖大量的高质量数据进行训练。以训练数据为核心,重点关注数据量、数据标注、数据质量、数据分布、云端存储与超算中心等。2023年,特斯拉在端到端神经网络开发初期,就向系统输入了1,000万个经过筛选的人类驾驶视频片段,按每段15秒估算,高清视频的总计时长超过4万小时。根据特斯拉测算,单个端到端模型至少需要经100万个分布多样且高质量的视频片段训练才能正常运作。优质训练数据的体量与企业的自研实力、综合产品力、资金投入、智驾车型销量等因素密切相关。

真实数据中,长尾场景覆盖率低。长尾场景(暴雨、积雪或施工复杂环境中事故高发区域)中,车辆的行为决策需要高度鲁棒的模型支持,然而,这些场景在真实数据中占比极低,难以通过传统的路测覆盖全面。现有的仿真测试技术只能生成部分场景,而针对动态交互场景(如复杂的多车协同避让)的模拟能力有限,导致验证结果难以完全反映真实情况。目前普遍解决方案是采用合成数据来模拟真实世界数据的特征分布。合成数据能够以较低成本增加训练数据的规模、丰富泛化场景的多样性,并有效生成长尾场景。例如,英伟达通过其Omniverse平台,利用合成数据提升模型对复杂场景的适应性。

2、算力,训练和运行庞大模型的引擎

道路交通的复杂程度与训练数据的体量使端到端的落地对于算力有极高的要求。道路交通环境的复杂性并不能完全用交通规则来覆盖。例如,机动车道上闯入的行人、自行车、两轮电动车等非规则情况千差万别,只能尽可能扩大数据库来“教”自动驾驶系统。从特斯拉FSD来看,端到端所需算力成倍增加:FSD V12全面采用端到端,用3,000行代码替代了原来的30多万行代码,但算力要求提升了10倍,整个平台算力需要达到3,000~5,000T0PS才能满足端到端需求。

除了对车端算力需求外,对云端算力要求也很高。由于端到端系统依赖大规模数据集,训练过程对算力资源需求极高,尤其是为了使大模型具备复杂路况识别能力,需要在大量模拟场景和真实世界数据上进行训练。目前,特斯拉超算中心的算力支持由其自研的D1芯片和自研的超级计算机Dojo组成,投资约10亿美元。国内一些车企的端到端则更多使用了云计算方案,如小鹏汽车的云计算大模型等。

3、算法,模型的灵魂

从最初的CNN(卷积神经网络)、RNN(循环神经网络),到如今的Transformer,算法演进使得模型能够更好地处理时空序列信息和多模态数据融合。但算法也构成了端到端的另一挑战,就是大模型的黑盒属性。由于端到端模型直接从输入(传感器数据)到输出(控制指令)进行映射,决策过程是一个复杂的非线性映射,难以直观理解其内部逻辑。决策过程不透明且缺乏可解释性,可能导致开发者在调试和优化模型时难以定位问题根源,造成模型调试和优化上的困难,安全性难以验证。

六、端到端的未来方向

展望未来,端到端技术正朝着更融合、更智能、更高效的方向演进。

首先,架构深化:从“模块化端到端”向“一体化端到端”(One Model)演进,进一步减少信息损失,提升系统性能和泛化能力。

其次,与AI大模型融合:视觉-语言-动作模型(VLA)被视为“端到端2.0”的代表,它将视觉理解、语言推理和动作控制深度融合,有望更好地理解复杂场景(如潮汐车道)、提升决策的可解释性,并实现更长远的时间序列推理。

最后,赋能“智驾平权”:随着技术的成熟和成本的优化,端到端智驾正从高端车型加速向10-20万元的主流市场普及,让更先进的智能驾驶体验触达更多用户。

来源:常州焦点

相关推荐