摘要:在广义语境中,端到端是一种研发范式,指在一个任务中,从输入端到输出端,中间不经过任何其他处理环节,由一个模型完整实现输入到输出的全过程。在智能驾驶领域,端到端架构是指车辆将传感器采集的信息直接输入统一的深度学习神经网络,经过处理后直接输出驾驶命令。深度神经网络
端到端的定义:基于数据驱动的深度学习
在广义语境中,端到端是一种研发范式,指在一个任务中,从输入端到输出端,中间不经过任何其他处理环节,由一个模型完整实现输入到输出的全过程。在智能驾驶领域,端到端架构是指车辆将传感器采集的信息直接输入统一的深度学习神经网络,经过处理后直接输出驾驶命令。深度神经网络赋予端到端模型强大的学习能力,使其能从大量驾驶数据中自动学习复杂的驾驶模式和场景特征。
传统智驾系统的感知层、决策规划层和控制执行层之间相互独立,信息传递容易积累误差,且智驾方案依赖于工程师通过代码制定的规则,难以处理所有复杂场景,边际效应随着智驾能力的提升呈现几何式骤减。与基于规则的传统自动驾驶算法结构相比,端到端算法基于数据驱动,可以实现信息的无损传递。同时,端到端架构将感知、预测和规划结合为一个可以共同训练的单一模型,整个系统都针对最终任务进行优化,并且共享的骨干网络大幅提高了计算效率,使智驾方案具备更高的迭代效率,有效降低了维护成本。
从模块化方案向一体化端到端模型过渡
端到端架构的本质是深度学习的全面使用与数据驱动。根据感知模块与决策模块之间的贯通程度,可分为模块化端到端与一体化端到端。模块化端到端将感知模块和决策规划模块视为两个独立部分,分别使用神经网络,但模块之间仍存在人工设计的数据接口。例如,华为乾崑ADS 3.0由GOD感知网络和PDP决策规划网络组成,GOD负责感知障碍物,PDP则根据感知信息迅速做出决策。
一体化端到端则将感知与规控模块全部打通,形成一个统一的大模型,使系统能够更直接、高效地处理信息并作出反应。业内典型代表为特斯拉、Momenta、理想等。这种架构取消了模块划分,减少信息损失的同时,对数据标注的需求也更少,同时具有更强的泛化性。从模块化端到端到一体化端到端是一种相对平滑的过渡形式。随着算法优化,技术将逐步向一体化端到端或端到端+多模态大模型的冗余双系统架构演进。
端到端的发展历程
早期探索阶段(2016-2018年)2016年:英伟达(NVIDIA)推出DAVE-2。端到端概念的提出可 以 追 溯 至 英 伟 达 于 2016 年 发 表 的 论 文 《 End to EndLearning for Self-Driving Cars》。同年,英伟达发布了基于卷积神经网络(CNN)的端到端自动驾驶系统DAVE-2,通过摄像头图像直接输出转向指令。这是端到端技术的早期尝试,标志着自动驾驶从模块化向一体化迈进的起点。
2017年:Wayve.AI成立并发布“Learning to Drive in aDay”。Wayve.AI采用强化学习结合深度学习的方法,仅用一天时间训练即可应对复杂城市驾驶场景,展示了端到端技术在快速学习和适应能力上的潜力。2017 年 : Comma.ai 推 出 OpenPilot 。 Comma.ai 发布了OpenPilot软件,最初为L2级辅助驾驶系统,后逐步转向端到端神经网络模型,成为首个商业化端到端自动驾驶产品。
技术突破与现实应用阶段(2019年-)2021年:特斯拉发布BEV(Bird Eye View)技术。特斯拉在AI Day上公布了BEV技术架构,通过多传感器融合实现感知模块的端到端化,为后续端到端技术的全面应用奠定了基础。2023年:特斯拉FSD V12发布。特斯拉正式推出FSD V12版本,采用端到端架构,实现了感知、决策、规划的一体化,显著提升了驾驶体验的拟人化和安全性。这一版本成为行业标杆,推动了全球车企加速端到端技术的研发。2023年:OpenDriveLab发布UniAD。OpenDriveLab推出了全栈Transformer端到端模型UniAD,整合感知、预测和规划模块,进一步提升了复杂场景下的环境理解和决策能力。
端到端自动驾驶的起源可以追溯至1988年,当时ALVINN系统利用相机和激光测距仪的输入,通过简单神经网络生成转向指令。2016年,英伟达开发了端到端CNN原型系统,推动了这一概念在GPU计算时代的发展。
随着深度神经网络的进步,端到端自动驾驶在模仿学习和强化学习方面取得突破,LBC中的策略蒸馏方法通过模仿优秀专家,提升了闭环性能。为增强系统的泛化能力,尤其是针对专家策略和学习策略之间的差异,业内研究提出了在训练过程中聚合在线数据的策略。2021年左右,端到端自动驾驶迎来重要转折点。
随着传感器配置在合理计算预算内普及,研究重点转向融合更多感知模态和先进架构(例如Transformer),以捕捉全局上下文和关键特征,例如TransFuser及其变体。这些设计结合对仿真环境的深入理解,使模型在CARLA基准测试中显著提升性能。为提高自主系统的可解释性和安全性,一种解决方案是引入各种辅助模块以更好地监督学习过程,另一种则采取注意力可视化。2023-2024年,研究重点聚焦生成安全关键数据、预训练策略学习的基础模型或骨干网络,推动感知与规划模块的端到端整合。同时,更具挑战性的CARLAv2和nuPlan基准测试也被引入。
端到端实现方法:模仿学习
算法实现层面,端到端的方法可以大致分为模仿学习和强化学习。模仿学习也称为从示范中学习,是一种通过模仿专家行为来训练智能体学习策略的方法。模仿学习中,一种广泛使用的方法是行为克隆(BC),将问题转化为监督学习问题。另一种方法是逆最优控制(IOC,也称为逆强化学习),利用专家示范来学习奖励函数。
端到端实现方法:强化学习
强化学习是一种通过“试错”学习的方法。智能体(比如自动驾驶系统)通过不断地尝试不同的动作,并根据结果得到奖励或惩罚,从而学习哪些动作是好的,哪些是不好的。这种方法最早依托于“深度Q网络”(DQN)应用在Atari游戏中,通过学习来控制游戏中的角色。在自动驾驶中,强化学习的目标是让车辆学会在复杂多变的交通环境中做出最优决策,例如如何转弯、加速、刹车等。由于驾驶过程中存在众多不确定因素,如交通流量、路况变化等,决策任务极为复杂。强化学习通过让系统与环境互动,不断优化驾驶策略,从而提高驾驶的舒适性和安全性。
强化学习在应用中面临的主要挑战是需要大量的数据进行训练,而现实中很难保证所有可能的情况都能被模拟出来,并且训练过程需要大量的“试错”。为了弥补强化学习的不足,许多研究选择将强化学习与监督学习(SL)结合,例如隐式效用,通过使用监督学习对CNN编码器进行预训练。监督学习通过“标注数据”助力系统更好地理解环境,强化学习则帮助系统在复杂环境中逐步优化自身策略。二者结合,让系统既能从已有的知识中学习,又能在实践中持续改进。
端到端的挑战:数据
由于端到端算法基于数据驱动,大模型依赖大量的高质量数据进行训练。以训练数据为核心,重点关注数据量、数据标注、数据质量、数据分布、云端存储与超算中心等因素。2023年,特斯拉在端到端神经网络开发初期,就向系统输入了1000万个经过筛选的人类驾驶视频片段,按每段15秒估算,高清视频的总计时长超过4万小时。
根据特斯拉的测算,单个端到端模型至少需要经100万个分布多样且高质量的视频片段训练才能正常运作。此外,在大规模数据收集的基础上,需要对海量道路场景的数据进行标注,将其转化为支撑算法训练的数据,这也需要重资产投入。因此,优质训练数据的体量与企业的自研实力、综合产品力、资金投入、智驾车型销量等因素密切相关,这些因素在一定程度上强化了车企的马太效应。
真实数据中,长尾场景覆盖率低。长尾场景(暴雨、积雪或施工复杂环境中事故高发区域)中,车辆的行为决策需要高度鲁棒的模型支持,然而,这些场景在真实数据中占比极低,难以通过传统的路测覆盖全面。现有的仿真测试技术只能生成部分场景,而针对动态交互场景(如复杂的多车协同避让)的模拟能力有限,导致验证结果难以完全反映真实情况。
因此,调整长尾场景在训练数据中的分布比例有很大的探索价值。目前的普遍解决方案是采用合成数据来模拟真实世界数据的特征分布。合成数据能够以较低成本增加训练数据的规模、丰富泛化场景的多样性,并有效生成长尾场景。例如,英伟达通过其Omniverse平台,利用合成数据提升模型对复杂场景的适应性。此外,特斯拉也采用合成数据生成边缘场景来扩充数据集,通过迭代方法捕捉更多边缘情况。
端到端的挑战:算力&算法可解释性
道路交通的复杂程度与训练数据的体量使端到端的落地对于算力有极高的要求。道路交通环境的复杂性并不能完全用交通规则来覆盖。例如,机动车道上闯入的行人、自行车、两轮电动车等非规则的情况千差万别,难以用理论模型来归纳概括,只能尽可能扩大数据库来“教”自动驾驶系统,这无形中就会提升算力需求。从特斯拉的FSD自动驾驶系统看,端到端所需算力成倍增加:FSD V12全面采用端到端,用3000行代码替代了原来的30多万行代码,但算力要求提升了10倍,整个平台算力需要达到3000~5000T0PS才能满足端到端的需求。除了对车端算力的需求外,对云端算力要求也很高。
由于端到端系统依赖大规模数据集,训练过程对算力资源需求极高,尤其是为了使大模型具备复杂路况识别能力,需要在大量模拟场景和真实世界数据上进行训练。通常,样本量越大,系统越成熟,这也推动了对高性能计算芯片和计算模块的需求。目前,特斯拉超算中心的算力支持由其自研的D1芯片和自研的超级计算机Dojo组成,投资约10亿美元。而国内一些车企的端到端则更多使用了云计算方案,如小鹏汽车的云计算大模型等。
端到端的另一挑战是大模型的黑盒属性。由于端到端模型直接从输入(传感器数据)到输出(控制指令)进行映射,决策过程是一个复杂的非线性映射,难以直观理解其内部逻辑。决策过程不透明且缺乏可解释性,可能导致开发者在调试和优化模型时难以定位问题的根源,造成模型调试和优化上的困难,安全性难以验证。
国内政策:产业支持充足,标志性政策落地
近年来,工信部等部门陆续颁布多项智联网汽车相关政策,助推智能驾驶从“小范围测试验证”加速迈入“规模化落地”,加快高阶智能驾驶的普及应用和商业化进程。随着智能网联汽车技术快速迭代和辅助驾驶的大规模应用,“车路云一体化”正处于转入规模化应用的关键时期,建成将具有巨大潜在价值:一方面,当车辆大规模接入车路云网络后,交通的通行效率将得到大幅提升;另一方面,该网络中大量的数据可以反哺真实世界模型、自动驾驶模型及机器人模型的训练。
截止2024年5月,全国已有47个国家级智能网联测试示范区,16个双智试点城市,7个智能网联先导区,包括武汉、重庆、深圳、北京等无人驾驶提前布局的重点城市。全国共开放自动驾驶示范道路3.2万多公里,测试里程超过1.2亿公里,各地智能化路测单元部署超过8700套。
车企抢滩DeepSeek,AI行业与智能驾驶共振
车企抢滩DeepSeek,AI行业与智能驾驶共振。2025年2月,比亚迪、吉利、极氪、岚图、东风、零跑、广汽、长城、智己、宝骏等20多家车企及供应商陆续宣布与DeepSeek大模型完成深度融合。
以Deepseek为代表的AI技术进步助推自动驾驶行业告别硬件堆叠、算力比拼,一场以AI融合为核心的高阶智能驾驶和智能座舱新竞赛即将展开。以往在大模型竞赛中,通常是围绕“数据、算法、算力”三要素中的算力进行突破,企业通过不断堆高算力水平来实现大模型训练和推理的加速。而DeepSeek的出现则打破了这种传统模式,选择从架构和算法创新入手,在有限的算力与训练成本下,显著提升算力利用效率。
DeepSeek本身作为大语言模型,在算法优化与算力节省上拥有革新性优势,同时,基于视觉强化微调可以延伸至多模态模型,拥有多模态模型上车的共性优势,包括:
(1)开源特性,使得车企可以快速调用 API,依据自身需求进行定制化开发,大幅缩短技术从引入到落地应用的周期。
(2)通过对数据的深度挖掘、增强、保护以及跨领域迁移能力,应对极端场景。由于在自动驾驶中,真实路测难以覆盖所有危险场景(如行人突然横穿马路),DeepSeek可以构建高保真的长尾虚拟驾驶场景(如极端天气、突发事故),通过合成数据训练模型,弥补真实数据中罕见场景的不足。同时基于生成对抗网络(GAN),包括生成多样化的行人、车辆行为模式,提升模型对复杂交通场景的适应能力,使模型提前学习应对策略,避免实际路测中的安全隐患。
同时,通过云端协同的方式,将数据合成和仿真训练放在云端完成,车端仅需加载轻量化模型,避免占用车端算力。这种提升极端路况的表现尤其适用于城市NOA。
(3)云端高效训练。在云端,DeepSeek基于当前智驾企业积累的数据库,通过数据生成完善场景构建,仅需极少量标注数据即可实现高效训练。据NE时代新能源消息,这种方式可以节省约90%的标注成本,还可以生成海量的增强数据。据懂车帝消息,传统智驾系统需6-12个月完成场景训练,而DeepSeek的MoE(混合专家)架构可将周期压缩至45天。
(4)蒸馏技术提升研发效率、降低算力需求。车企可以将云端大模型通过DeepSeek的知识蒸馏技术压缩为适合自动驾驶车端部署的小模型,无需单独对车端模型进行训练。不同版本的智驾方案,在理想情况下可以来源于同一教师模型而无需重复开发,有助于提升开发效率、减少三方智驾企业的资金压力和项目周期压力,并逐渐模糊中高阶智驾技术边界。长远来看,基于教师模型蒸馏得到的学生模型也会更加精细化,且DeepSeek所展示的推理效率也有一定的借鉴意义,这也就意味车端所需的芯片算力要求会有所降低。个别企业表示,基于DeepSeek的技术路径,甚至可以在单Orin-X上部署L3的功能。
(5)语义分割、目标识别等赋能智能座舱。DeepSeek应用于座舱交互,能够实现更精准、流畅的语音交互,理解驾驶员的模糊指令,快速准确执行操作,将传统“指令式交互”转变为“场景化服务”。
10万级别智驾落地推动行业进入智驾平权
随比亚迪引领的10万级别智驾落地,视觉感知方案与端到端大模型共同推动行业进入“智驾平权”时期。过去,由激光雷达、高算力芯片和海量数据训练等筑成的高门槛,使智能驾驶功能主要集中在豪华车上。2024年,中国市场乘用车入门级L2及以下辅助驾驶前装搭载虽高达52.44%,以NOA为代表的高阶智驾前装搭载率仅为8.62%,尤其是10-20万元价位区间高阶智驾的前装标配搭载率仅为1.31%,属于明显的市场洼地。
2024年1-9月,乘用车市场中城市NOA(自动导航辅助驾驶)技术的价格进一步下探,多个品牌推出了20万元以内搭载高阶智能驾驶功能的车型,标志着智能驾驶技术逐渐向更广泛的市场普及。2025年2月,比亚迪的“天神之眼”以三档技术方案精准切割市场:仰望品牌搭载天神之眼A,腾势与王朝系列匹配天神之眼B,而王朝网和海洋网共计21款车型将搭载天神之眼C,覆盖7万级到20万级的广泛价格区间。这种策略既保障了高端市场的竞争力,又以相对低成本的视觉感知方案,将高速NOA(领航辅助驾驶)功能推向大众市场。
同时,更多的车企也在加入智驾普及赛道,抢抓布局20万以下的主流车型区间高阶智驾(NOA)市场。例如,零跑汽车即将上市的零跑B10搭载激光雷达,将城区端到端智驾普及至15万内区间;长安汽车也宣布2025年将品牌全线智能化,同时要将激光雷达下放到10万元以下车型上。目前,高速NOA标配车型价格已降至10万元区间,城区NOA标配车型价格则刚进入20万元区间,但价格下探速度仍在加快。
汽车行业加速迈向智能驾驶全面普及时代
汽车行业加速迈向智能驾驶全面普及时代。2024年,国内新车L2级及以上辅助驾驶装配量达1098.2万辆,渗透率为47.9%。新能源车L2及以上渗透率达56.9%,高于燃油车。智能化已成为车企竞争焦点,主机厂加速推动高阶智驾系统量产,未能跟上智能化步伐的品牌可能逐渐失去竞争力。政策方面,国家和地方积极出台多项政策支持高阶智驾落地,目前已有50多个城市出台自动驾驶地方性法规,推动技术试点应用。
AI大模型技术的应用渗透进入自动驾驶领域,涵盖云端训练和车端部署,在硬件降本、性能提升和算法开源方面具有优势,同时降低了训练和推理成本。Deepseek将从数据、算法、算力等环节全面赋能,加速高阶智驾商用落地。随着端到端大模型优化,头部车企推出“车位到车位”功能,覆盖全场景并具备全程无接管能力,2025年智驾市场将进入“车位到车位”功能的竞争阶段。
高阶智驾技术进步和规模化生产推动成本下降,10-20万元车型将成为渗透主力市场。预计2025年,智驾市场的车企之间围绕“车位到车位”功能的成熟度和用户体验,技术角逐将更加激烈;同时,NOA高阶智驾市场将迎来商业化拐点,消费者有望以更低的成本享受到高阶智能驾驶功能。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。
来源:思瀚研究院