摘要:在2025世界人工智能大会上, 博世智驾负责人吴永桥博士发表言论称,VLA在未来两三年内的表现赶不上一段式端到端。
在2025世界人工智能大会上, 博世智驾负责人吴永桥博士发表言论称,VLA在未来两三年内的表现赶不上一段式端到端。
在诸多车企纷纷转向VLA的今天,这实在是一个非常值得探讨的观点。
01
混乱是进步的阶梯,混乱也是争议的根源。
自动驾驶行业之所以新词不断、暴论不断,主要是因为这个行业正处于高速成长期,还没有走到收敛阶段。
等到自动驾驶真正成熟之日,目前所有的争议都会烟消云散。
关于VLA和一段式是端到端方案孰优孰劣,按照目前国内舆论的宣传来看,其实并没有太大的争议。
主流的观点认为,以VLA为代表的生成式AI智驾大模型是一段式端到端的下一个发展阶段。
车企和智驾方案供应商们之所以要投入大量的资源推动自动驾驶算法范式向生成式AI转变,当然是为了解决一段式端到端方案的缺陷。
在过去的一年里,在各路媒体的狂轰乱炸之下,我们已经了解了端到端方案的价值和优点。
相较于传统规则驱动的分模块方案,它能够减少信息传递的损失和累计误差,能够节约计算资源和车端算力的成本,可以进行联合训练达到全局最优,最终提升场景感知和决策能力,提高性能天花板。
好话说了一箩筐,但我们很少了解它的缺陷。
除了分布偏移、模态坍缩这些缺点,一段式端到端方案最根本的缺陷在于,它没有在因果之间建立起真正的关联。
对于自动驾驶系统而言,“因”指的是包括道路静态结构、交通动态场景甚至包括驾驶员在内的周边环境,“果”指的是车辆的行驶轨迹。
如果套用VLA的概念,“因”是V,“果”是A。
一段式端到端因为缺乏了中间的L代表的语言智能,无法在V和A之间也就是在因和果之间建立关联,只能做到知其然,而无法做到知其所以然。
语言智能所代表的推理能力对自动驾驶系统理解复杂的交通环境至关重要,正是基于这一点,主流观点都认为一段式端到端的上限不如VLA为代表的生成式AI大模型。
02
巴菲特老搭档查理·芒格的误判心理学里有一个重要的观点:认知往往取决于情景。
就是说,面对同一个问题,不同背景和经历的人会给出不同的答案,而同一个人在思考同一个问题的时候,也会在不同的情景下得出不同的结论。
吴博士之所以认为VLA两三年内也赶不上一段式端到端,大概率是因为博世的自动驾驶算法刚刚发展到一段式端到端阶段。
当然,吴博士或许还有一个言外之意:友商们还没有挖掘出一段式端到端方案的潜力,就过早地放弃了对这种技术路线的探索。
从时间线上来看,头部智驾企业24年下半年实现了分段式端到端方案,25年上半年实现了一段式端到端方案,并没有在端到端上投入足够的时间和资源进行深入持久的探索和性能挖掘。
在既没有充分验证端到端方案的优缺点,也没有将其潜力挖掘至性能上限的情况下,就要于25年下半年果断转型,对VLA大模型展开攻坚,是不是过于猴急了点?
想当年,特斯拉21年推出基于Transformer的BEV,22年推出OCC,本土友商大概花了两年的时间追赶,不断精进打磨BEV+OCC方案。
24年下半年到25年上半年,大家刚刚转型端到端方案,为什么不能给它两年的打磨时间,着力探索一下它的上限呢?
除了VLA在理论上确实具有更高的上限,还有营销和宣传层面的原因。
近两年来,随着ChatGPT和DeepSeek的爆火,凭借令人炫目的泛化能力和深度推理能力,大模型实现了前所未有的大规模破圈。
不仅成为了资本市场的焦点,还成功进入了公众的视线。
所以,在故事性和话题传播力这个维度上面,让人丈二和尚摸不着头脑的一段式端到端方案远不及拥有大模型光环的VLA方案。
03
To be or not to be, this is a question!
是继续打磨一段式端到端方案,还是果断转型VLA,想必很多车企也都像哈姆雷特那样犯过难。
就拿博世自己来说,吴博士在3月份接受访谈时认为,由于过于迷恋在规则时代沉淀下来的资产,华为转型端到端犹犹豫豫,以至于被果断转型的理想汽车追平了。
现在,他又觉得友商们果断转型VLA有可能会步子太大扯着蛋。
永信大和尚可以一边吃斋念佛,一边男欢女爱,不负如来不负卿。
车企们打磨一段式端到端或转型VLA路线,其实也没有那么对立,非得做出有它没你的选择。
在打磨端到端方案的过程中积累的能力、数据和工程经验可以毫无违和地应用在VLA方案里,成为其不可替代的技术支撑和核心基础。
比如说,作为对物理世界的稠密几何解析,占用网络是端到端方案中天花板级别的技术突破点,给VLA提供了可解释的几何先验。
OCC输出的稠密几何信息可以转换为VLA所需的自然语言描述,让它的思维链具备物理的可解释性。
另外,OCC提供的3D语义地图为VLA的语言指令提供了几何约束,避免动作决策偏离物理现实。
而且,在端到端方案打磨阶段积累的占用网络训练数据也可以直接用来训练VLA的视觉语言对齐模块。
稳扎稳打端到端功不唐捐,果断转型VLA也自有其道理。
每一种算法范式都有自己的下限和上限,也都有自己的长板和短板。
既然端到端缺少语言智能,而语言智能又是解决自动驾驶认知瓶颈的终极路径,是L2迈向L3、L4级自动驾驶的核心组件。
那么,大家早晚都得切到VLA路线。
而且,目前整个具身智能产业都相当看好VLA,车企们加入进来,可以有效利用人形机器人等赛道提供的跨领域技术杠杆。
车企们迅速抛弃端到端,果断拥抱VLA方案,再度证明了本土自动驾驶行业从1到10阶段的跟随能力相当强悍。
不过,还是要提个醒,不要由于对短期技术热点的过度追逐而轻视基础技术能力的积累,在流沙上筑塔,早晚是要垮掉的!
来源:燃擎频道Myautotime