汽车智能驾驶行业深度报告：端到端与AI共振，智驾平权开启新时代

摘要：在广义语境中，端到端是一种研发范式，指在一个任务中，从输入端到输出端，中间不经过任何其他处理环节，由一个模型完整实现输入到输出的全过程。在智能驾驶领域，端到端架构是指车辆将传感器采集的信息直接输入统一的深度学习神经网络，经过处理后直接输出驾驶命令。深度神经

端到端的定义：基于数据驱动的深度学习

在广义语境中，端到端是一种研发范式，指在一个任务中，从输入端到输出端，中间不经过任何其他处理环节，由一个模型完整实现输入到输出的全过程。在智能驾驶领域，端到端架构是指车辆将传感器采集的信息直接输入统一的深度学习神经网络，经过处理后直接输出驾驶命令。深度神经网络赋予端到端模型强大的学习能力，使其能从大量驾驶数据中自动学习复杂的驾驶模式和场景特征。

传统智驾系统的感知层、决策规划层和控制执行层之间相互独立，信息传递容易积累误差，且智驾方案依赖于工程师通过代码制定的规则，难以处理所有复杂场景，边际效应随着智驾能力的提升呈现几何式骤减。与基于规则的传统自动驾驶算法结构相比，端到端算法基于数据驱动，可以实现信息的无损传递。同时，端到端架构将感知、预测和规划结合为一个可以共同训练的单一模型，整个系统都针对最终任务进行优化，并且共享的骨干网络大幅提高了计算效率，使智驾方案具备更高的迭代效率，有效降低了维护成本。

从模块化方案向一体化端到端模型过渡

端到端架构的本质是深度学习的全面使用与数据驱动。根据感知模块与决策模块之间的贯通程度，可分为模块化端到端与一体化端到端。模块化端到端将感知模块和决策规划模块视为两个独立部分，分别使用神经网络，但模块之间仍存在人工设计的数据接口。例如，华为乾崑ADS 3.0由GOD感知网络和PDP决策规划网络组成，GOD负责感知障碍物，PDP则根据感知信息迅速做出决策。一体化端到端则将感知与规控模块全部打通，形成一个统一的大模型，使系统能够更直接、高效地处理信息并作出反应。业内典型代表为特斯拉、Momenta、理想等。这种架构取消了模块划分，减少信息损失的同时，对数据标注的需求也更少，同时具有更强的泛化性。从模块化端到端到一体化端到端是一种相对平滑的过渡形式。随着算法优化，技术将逐步向一体化端到端或端到端+多模态大模型的冗余双系统架构演进。

端到端实现方法：模仿学习

算法实现层面，端到端的方法可以大致分为模仿学习和强化学习。模仿学习也称为从示范中学习，是一种通过模仿专家行为来训练智能体学习策略的方法。模仿学习中，一种广泛使用的方法是行为克隆（BC），将问题转化为监督学习问题。另一种方法是逆最优控制（IOC，也称为逆强化学习），利用专家示范来学习奖励函数。

强化学习是一种通过“试错”学习的方法。智能体（比如自动驾驶系统）通过不断地尝试不同的动作，并根据结果得到奖励或惩罚，从而学习哪些动作是好的，哪些是不好的。这种方法最早依托于“深度Q网络”（DQN）应用在Atari游戏中，通过学习来控制游戏中的角色。在自动驾驶中，强化学习的目标是让车辆学会在复杂多变的交通环境中做出最优决策，例如如何转弯、加速、刹车等。由于驾驶过程中存在众多不确定因素，如交通流量、路况变化等，决策任务极为复杂。强化学习通过让系统与环境互动，不断优化驾驶策略，从而提高驾驶的舒适性和安全性。强化学习在应用中面临的主要挑战是需要大量的数据进行训练，而现实中很难保证所有可能的情况都能被模拟出来，并且训练过程需要大量的“试错”。为了弥补强化学习的不足，许多研究选择将强化学习与监督学习（SL）结合，例如隐式效用，通过使用监督学习对CNN编码器进行预训练。监督学习通过“标注数据”助力系统更好地理解环境，强化学习则帮助系统在复杂环境中逐步优化自身策略。二者结合，让系统既能从已有的知识中学习，又能在实践中持续改进。

端到端的挑战：数据

由于端到端算法基于数据驱动，大模型依赖大量的高质量数据进行训练。以训练数据为核心，重点关注数据量、数据标注、数据质量、数据分布、云端存储与超算中心等因素。2023年，特斯拉在端到端神经网络开发初期，就向系统输入了1000万个经过筛选的人类驾驶视频片段，按每段15秒估算，高清视频的总计时长超过4万小时。根据特斯拉的测算，单个端到端模型至少需要经100万个分布多样且高质量的视频片段训练才能正常运作。此外，在大规模数据收集的基础上，需要对海量道路场景的数据进行标注，将其转化为支撑算法训练的数据，这也需要重资产投入。因此，优质训练数据的体量与企业的自研实力、综合产品力、资金投入、智驾车型销量等因素密切相关，这些因素在一定程度上强化了车企的马太效应。

真实数据中，长尾场景覆盖率低。长尾场景（暴雨、积雪或施工复杂环境中事故高发区域）中，车辆的行为决策需要高度鲁棒的模型支持，然而，这些场景在真实数据中占比极低，难以通过传统的路测覆盖全面。现有的仿真测试技术只能生成部分场景，而针对动态交互场景（如复杂的多车协同避让）的模拟能力有限，导致验证结果难以完全反映真实情况。因此，调整长尾场景在训练数据中的分布比例有很大的探索价值。目前的普遍解决方案是采用合成数据来模拟真实世界数据的特征分布。合成数据能够以较低成本增加训练数据的规模、丰富泛化场景的多样性，并有效生成长尾场景。例如，英伟达通过其Omniverse平台，利用合成数据提升模型对复杂场景的适应性。此外，特斯拉也采用合成数据生成边缘场景来扩充数据集，通过迭代方法捕捉更多边缘情况。

车企抢滩DeepSeek，AI行业与智能驾驶共振

以Deepseek为代表的AI技术进步助推自动驾驶行业告别硬件堆叠、算力比拼，一场以AI融合为核心的高阶智能驾驶和智能座舱新竞赛即将展开。以往在大模型竞赛中，通常是围绕“数据、算法、算力”三要素中的算力进行突破，企业通过不断堆高算力水平来实现大模型训练和推理的加速。而DeepSeek的出现则打破了这种传统模式，选择从架构和算法创新入手，在有限的算力与训练成本下，显著提升算力利用效率。

DeepSeek本身作为大语言模型，在算法优化与算力节省上拥有革新性优势，同时，基于视觉强化微调可以延伸至多模态模型，拥有多模态模型上车的共性优势，包括：（1）开源特性，使得车企可以快速调用 API，依据自身需求进行定制化开发，大幅缩短技术从引入到落地应用的周期。（2）通过对数据的深度挖掘、增强、保护以及跨领域迁移能力，应对极端场景。由于在自动驾驶中，真实路测难以覆盖所有危险场景（如行人突然横穿马路）， DeepSeek可以构建高保真的长尾虚拟驾驶场景（如极端天气、突发事故），通过合成数据训练模型，弥补真实数据中罕见场景的不足。同时基于生成对抗网络（GAN），包括生成多样化的行人、车辆行为模式，提升模型对复杂交通场景的适应能力，使模型提前学习应对策略，避免实际路测中的安全隐患。同时，通过云端协同的方式，将数据合成和仿真训练放在云端完成，车端仅需加载轻量化模型，避免占用车端算力。这种提升极端路况的表现尤其适用于城市NOA。

特斯拉：纯视觉方案+一体化端到端先驱

特斯拉经历了自研芯片、算法结构、数据标注与融合等方面的升级，一体化端到端技术架构逐渐完善。 Full Self-Driving（完全自动驾驶，FSD）是特斯拉研发的最高级自动辅助驾驶系统，计划通过OTA（Over-TheAir）软件更新逐步实现L5级别的自动驾驶。截至2024年Q2，特斯拉宣布其FSD技术助力下的汽车已经行驶了超过 16亿英里（约合25.75亿公里）；搭载基于全面端到端的FSD V12系统的汽车已经行驶了超过6亿英里（约合9.66 亿公里）。到2024年底，特斯拉计划将FSD的AI训练能力提升至约9-10万个H100等效算力（对应90-100E FLOPS）。从Autopilot到端到端架构，特斯拉通过影子模式、HydraNet神经网络架构构建、数据自动标注、算法层面迭代（BEV+Transformer+占用网络等）、算力储备等布局实现了逐步迭代升级。

自动驾驶软件层面，目前主要分为三个层级，分别是BAP（基础版辅助驾驶）、EAP（增强版辅助驾驶）和FSD（完全自动驾驶），自动驾驶功能搭载程度依次递增。FSD的核心功能包括自动辅助导航驾驶、自动泊车、自动变换车道、智慧召唤、交通标志识别、辅助转向等。2024年1月发布的FSD V12.12在旧金山Market Street路口通过复杂路口通行测试，平均通过时间12秒，成功率88%。在硅谷测试中，该系统已能处理 “隧道内无保护左转”等高阶场景，决策逻辑与人脑反应时误差仅0.3秒，实现了端到端系统的进一步优化。最新发布的FSD V13在V12的基础上增加了各种新功能，包括从驻车启动FSD、倒车和目的地停车功能等。

硬件系统迭代了多个版本，包括HW1.0、HW2.0/HW2.5、 HW3.0以及最新的HW4.0。2019年，特斯拉在国内推出搭载HW3.0的Model 3/Y，FSD为付费选装形式，只能实现自动泊车、车道保持等基础功能。HW4.0的芯片算力提升五倍，为FSD的后续迭代提供硬件基础，主要搭载于Model X/S/3/Y车型上。

华为鸿蒙智行：模块化端到端，聚焦生态整合与全域协同

华为的智能驾驶技术（ADS）采用的是激光雷达和视觉融合方案，主要依靠激光雷达采集数据以探索可行驶的空间，并通过AI芯片和算法对数据进行处理，实现自动驾驶。融合感知方案的上限较高，但同时对算力算法的要求也高。 ADS通过1500波长的激光雷达感知环境数据，可以突破视觉限制，受夜晚、雨天、雾天以及尘土等天气因素的影响很小，且激光雷达收集的数据自带距离向量，无需芯片重复计算；另一方面，激光雷达和视觉同时采集数据需要数据融合处理，对算力和算法的要求较高。相比特斯拉采取的纯视觉方案，ADS硬件成本较高，不过华为通过与主机厂合作构建鸿蒙智行生态，有望借助中国市场的规模优势，最终压低成本。

理想：双系统并行，VLM规范端到端模型下限

2025年1月，理想汽车推出最新版本OTA 7.0，将端到端+VLM的双系统拓展至高速和环路，依托800万Clips训练数据领跑行业，实现了更拟人、更高效的全场景智驾。高速端到端和行业首创的“AI推理可视化”的推出，为L3实现提供了基础。目前，高阶智驾功能（如AD Max）已覆盖50%以上的销量，30万元以上车型的AD Max占比超过75%。截至 2024年12月，理想智驾总里程已达29亿公里，训练算力提升至8.1EFLOPS，超100亿的年研发投入有接近一半聚焦于人工智能，并建立了四支AI团队，分别解决不同问题。未来，理想将继续采取激光雷达与纯视觉融合的技术路线，推进端到端+VLM双系统的迭代，计划在2025年实现L3有监督智能驾驶，并在三年后推出L4级自动驾驶定义的产品。

车端：电子电气架构向中央计算迈进

汽车电子电气架构的升级路径表现为分布式（模块化→集成化）、域集中（域控制集中→跨域融合）、中央集中式（车载电脑→车-云计算）。分布式阶段：传统分布式电子电气架构下，每个ECU通常只控制单一功能单元，如发动机、刹车、车门等，常见的有发动机控制器、传动系统控制器、制动控制器、电池管理系统等。各ECU通过CAN（Controller Area Network，控制器域网络）或LIN（Local Interconnect Network，局部互联网络）总线连接，按预定义协议交换信息。随着电子电气产品增加， ECU数量快速上升，总线线束长度和重量也随之增加，导致整车成本上升和组装自动化水平降低。分布式架构存在算力分散、布线复杂、软硬件耦合深、通信带宽瓶颈等缺点。分布式架构的 ECU 来自不同供应商，有着不同的嵌入式软件和底层代码，软件生态复杂，导致整个系统缺乏兼容性和扩展性，主机厂严重依赖供应商而无法自主进行整车维护，更无法实现 OTA。另外，随智能网联车功能越来越复杂，车辆传感器数量增加，由此产生的数据传输及处理的实时性要求提高，汽车内部网络通信数据量呈指数级增长趋势，传统的 FlexRay、 LIN 和 CAN 低速总线已无法提供高带宽通信能力，也无法适应数据传输及处理的实时性要求。分布式架构的极限是L2级别的自动驾驶，L3级别已经超出承受范围。要实现OTA和“软件定义汽车”，智能车必须解耦软硬件。

感知层：传感器数量减配、性能提升

大模型的应用有望降低自动驾驶传感器硬件成本，降低自动驾驶普及门槛。自动驾驶传感器主要包括摄像头、超声波雷达、毫米波雷达、激光雷达、GPS 等。超声波雷达在0.1-3米间精度较高，但易受天气和车速影响，主要应用于智能泊车功能；摄像头是实现众多预警、识别类高级辅助驾驶功能的基础；毫米波雷达使用波长为1-10 mm的电磁波，测距可达 200m，具有较强的穿透能力，不受雨、雪、大雾等恶劣天气影响，但对非金属物体（如行人）的反射效果欠佳，无法全面识别周围环境；激光雷达精度高(角/速度/距离分辨率)，响应速度快，最远探测距离高达500米，对行人检测效果良好，但在极端天气下性能会受影响，且成本较高。对环境进行三维建模，是高阶智能驾驶的必要条件，要求传感器具备高分辨率与三维探测能力。摄像头通过BEV、Occupancy Network等神经网络算法获得了这一能力，使得天生拥有这一能力的激光雷达重要性下降。

决策层：域控制器构成

智能驾驶域控制器的结构较为复杂，其功能实现依赖于主控芯片、软件操作系统、中间件及应用算法软件等多层次软硬件的协同工作。（1）硬件部分主要包括主控芯片、PCB板、无源元器件（如电阻电容）、射频元器件、支架、散热组件及密封金属外壳等，其中主控芯片是核心。在智能座舱域和自动驾驶域中，由于对算力要求较高，主控芯片通常由MCU芯片和SoC芯片共同组成。SoC芯片包含中央处理器（CPU）、图像处理器（GPU）、音频处理器（DSP）、深度学习加速单元（NPU）、图像信号处理器（ISP）、专用集成芯片（ASIC）及半定制电路芯片（FPGA）等，以满足多样化场景的硬件加速需求。相比之下，底盘域、车身域和动力域因算力需求较低且成本敏感，仍主要采用传统 MCU芯片。域控制器与ECU的硬件结构类似，但其芯片算力更强，支持软硬解耦，多功能模块的实现依赖于主控芯片与软件的高度集成。

（2）软件主要包括底层操作系统、中间件和开发框架、上层应用软件层。底层操作系统涵盖基础汽车操作系统、定制操作系统、虚拟机及系统内核等，预计将成为Tier1 供应商的重点发力领域。中间件与开发框架（如AP AutoSar、SOA）位于底层与上层之间，屏蔽处理器和操作系统的细节，提供与车辆网络、电源等系统交互的基础服务。上层应用软件层包括智能座舱HMI、ADAS/AD算法、网联算法及云平台等，直接实现车辆控制与智能化功能。整车厂将重点研发中间层和上层应用软件，以打造差异化竞争优势。