关于高阶智驾不可不知的四个词:端到端、D2D、VLM、VLA

B站影视 内地电影 2025-03-19 19:29 1

摘要:几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOP

几年前谈到自动驾驶,厂家卷的还是芯片算力和激光雷达数量,但如今消费者已经意识到,硬件的丰俭与实际的智驾能力并不成正比,很多时候都是割韭菜的噱头。最典型的例子是放言“4颗(激光雷达)以下别说话”的机甲龙,以及搭载4颗英伟达Orin芯片,总算力达到1016 TOPS的蔚来ET7,前者胎死腹中,后者寂寂无名。

从去年开始,业界迅速从卷硬件过渡到卷软件。相比看得见摸得着的芯片和激光雷达,软件的宣传话术更加晦涩抽象,让外行不明觉厉。笔者建议,下面这4个出现率极高的专业术语,你有必要了解一下,能帮你从“韭菜”变专家。

1、端到端——高阶智驾的底子

端到端(E2E)这一自动驾驶的算法范式,由特斯拉率先跑通,后续大批企业跟进,成为业内公认的发展方向。

简单来说,端到端自动驾驶算法模拟人脑神经元连接,在模型的一端输入感知信息,另一端直接输出轨迹或者控制信号,实现了对驾驶行为的“融会贯通”。相比传统模块化流水线式的架构,端到端能够使信息无损传递,减少人为偏见,大幅提升智驾的能力上限;同时,机器可以从“行为”学习“行为”,让驾驶变得更加丝滑和拟人化。

在厂家的描述中,端到端就是打通自动驾驶的“金钥匙”。但事实上,向高阶发展的技术路径仍没有完全收敛,它存在着“先天缺陷”,自身可解释性和验证性较差。如同人脑,会短路,会出现幻觉,你却很难说清到底哪里出了问题。

长安汽车首席智能驾驶技术官陶吉认为,“端到端的学习肯定是通往终极自动驾驶的必要一步,但肯定不是充分的一步”。

随着自动驾驶技术的快速发展,端到端算法模型的入门门槛大幅降低。小马智行CTO楼天城直言,现阶段,训练出一个一般性能的端到端模型不是问题,挖点人,基于公开的驾驶数据,大差不差都能搞出来。这也是为什么一夜之间,各家车企都拿出了自研的端到端智驾系统。

但有一点需要明确,端到端本身属于架构层面的概念,与模仿学习、强化学习、LLM、VLA等技术手段/方法并不是同一层面的概念。类似于汽车的电子电气架构从分布式升级到域集中式,再到中央计算架构的过程,在每一个特定的架构阶段,各厂商可以采用不同的算法和硬件来实现。因此,即使是在相同的电子电气架构模式下,也会有表现差异巨大的系统。所以千万不要迷信“端到端”。

2、D2D——衡量端到端性能的关键功能

D2D即Door to Door,意为从出发车位泊出到目的地车位泊入,车辆可实现全程无接管的点到点全场景自动驾驶。

2025年高阶智驾进入快速普及期,市场竞争逻辑已经从“人无我有”升级为“人有我优”。如今各家都在强调智驾的体验和好用度,在之前“全国都能开”的基础上,追求实现“车位到车位、门到门”等全场景的智能驾驶体验。

D2D正在成为衡量端到端性能的关键指标之一,借助该功能,车企能够向用户展示智驾系统在全场景下的连贯性与完整性,以及其实际应用的价值。目前,包括华为、理想、小米、极氪等多个企业,已经开始分批推送D2D功能。

不过,业界对这一功能的理解和实现方式不尽相同。一种以理想为代表,采用的是“VPA(记忆泊车/代客泊车)+NOA(智驾领航)+VPA”的技术路径,即在停车场路段,驱动系统行驶的是记忆泊车/代客泊车模式,驶入公开道路后,则立刻转变为智驾领航模式。其强项是可自主通行ETC,且不限范围、无需学习,全国超1万个收费站均可识别通行。

而特斯拉、小鹏这一派则用一套模式打通全场景,即无论是在园区封闭路段、地下停车场区域还是在公开路段,显示界面一直保持智驾NOA画面,不会随场景变化切换软件系统。它们更注重智驾应对复杂路况的连贯性与完整性,其车辆能够在整个“车位到车位”过程中,应对复杂路口、汇流变道、识别并避让特种车辆,实现U型掉头等特殊操作,做到全程无接管。

无论选择哪种路径,实现D2D都意味着智驾能力要接近L3级水平,这对算法、算力和数据提出了巨大挑战。从2024年开始,端到端+VLM双架构成为业界新宠,被视为L3的主要解决方案。

3、VLM——端到端1.0的外挂

VLM即视觉语言模型,相当于LLM(大语言模型)的进阶版,可将视觉信息(如图片、视频)和自然语言文本联系起来,此前在具身智能领域已有较多探索。

‌在自动驾驶领域,VLM能够识别道路环境、交通标志、行人、车辆等,并通过大量训练理解交通场景中的复杂交互事件,为自动驾驶系统提供决策支持。

VLM的引入使得自动驾驶系统的决策更加拟人化,能够根据当前环境做出合理的驾驶决策,从而提高系统的安全性和可靠性‌。

在国内,理想是第一家公开将VLM概念引入自动驾驶的车企。它在车端芯片上部署了双系统方案。系统1(端到端模型)完全靠自己的视觉感知,执行操作。系统2(VLM)能够提供复杂环境的理解能力、读懂导航地图的能力以及交通规则的理解能力,辅助系统1进行规划决策。系统1可以解决智能驾驶过程中95%的场景,剩下5%的情况就要交由系统2来进行理解和判断。

这就相当于VLM是端到端的外挂,或副驾教练的角色。目前,吉利汽车的“千里浩瀚”智驾系统,以及小米智驾系统HAD采用了端到端+VLM架构。

但也有企业认为,VLM占用的算力和所实现的功能之间的投入产出比不够高,“两个模型,资源占用方面不是最高效的方式,会降低模型效果,只不过现在的数据还不能支撑一个模型训练好。这是一个过渡阶段,将来还是会融合。”

“特斯拉的路径已经证明了,好的司机是不需要教练的。”在一些业内人士的眼中,VLM是端到端1.0的一次技术优化,而真正的2.0换代升级是VLA。

4、VLA——端到端技术换代

VLA(视觉-语言-动作模型)最早由Google DeepMind提出,是在VLM的基础上发展而来的,被视为端到端大模型2.0——多模态机器学习模型。在自动驾驶领域,VLA模型可以从传感器数据中提取丰富的环境信息,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令。

与传统的视觉语言模型(VLM)相比,VLA 的优势在于其不仅可以解析图像和文本信息,还能实现类人推理与全局理解。

据元戎启行CEO周光介绍,在面对复杂的交通规则、潮汐车道、长时序推理等特殊场景时,VLA模型能够比以往的系统更好地理解和应对。例如,在推理时长方面,传统的基于规则(rule-based)方案只能推理1秒钟的路况信息并做出决策控制;端到端1.0阶段的系统能够推理未来7秒的路况,而VLA模型则能够对几十秒的路况进行推理,显著提升了自动驾驶系统的决策能力和适应性。

此外,VLA系统透明,能通过车内大屏向用户解释“为什么这么开”,从而增强用户对自动驾驶系统的信任感。

有行业人士表示,VLA模型对智驾的演进意义重大,让端到端理解世界的能力更强后,“长远来看,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为关键跳板”。

目前在国内,理想已开始研发下一代VLA智驾大模型,目标在今年下半年实现项目落地。吉利汽车和元戎启行也在积极推动VLA,各家都在比拼落地时间。

但短期内,VLA上车还面临两大难点。一是车端算力不足,理想车端双Orin-X芯片运行端到端+VLM算力已经比较吃紧。而VLA的模型结构更复杂,参数也会进一步扩大,对硬件算力和数据闭环的迭代能力要求就更高。

以元戎启行的VLA模型RT-2为例,其参数量高达50亿以上,而理想汽车的VLM模型参数量为22亿,不到RT-2的一半。因此业内普遍认为,部署VLA模型对芯片算力的要求要提升到英伟达DRIVE Thor级别(单颗算力为2000TOPS)。

未来具备更强芯片整合能力和垂直整合能力的企业,有望在VLA技术的竞争中占据先发优势。目前行业头部竞争者如特斯拉、华为、蔚小理、Momenta等都在逐渐走向软硬一体,针对自研模型定制化开发更匹配的智驾芯片,可以做到最大程度的优化。

另一大挑战是如何将端到端与多模态大模型的数据与信息作深度交融。这考验着智驾团队的模型框架定义能力、模型快速迭代能力。

地平线副总裁兼首席架构师苏箐曾对笔者表示,特斯拉目前在智驾领域依旧“遥遥领先”,其最强之处在于工程化能力——不仅要持续创新,快速将前沿理论转化为可量产的技术和产品,还要注重效率和成本。

可以肯定的是,2025年开始大规模普及的高阶智驾,将带动新一轮市场洗牌,价格向下,体验向上成为各家比拼的关键词。而这背后,是对企业的深刻变革,和对竞争规则的重新定义。

端到端架构打破了传统模块化开发模式,车企需加强跨部门协作,并且强调AI领军人才,提升AI主导的智能驾驶研发能力。同时,工程化能力成为核心竞争力,除了研发投入与人才储备,端到端落地速度/智驾迭代频率/数据闭环能力等,可以帮助我们观察车企的工程化能力。

虽然市场看似一夜之间“普及”了端到端,但实际上,强弱之间的差距会越来越大,VLA的研发需要大量资源投入,只有少数头部大厂才能支撑全栈自研,技术和数据的双重优势将进一步巩固它们的市场地位,中小玩家难以望其项背,最终不论营销如何包装,都要依靠供应商补齐智驾短板。

本文仅为作者个人观点,不代表水滴汽车立场

来源:水滴汽车APP

相关推荐