VLA是自动驾驶的下一代技术吗?

B站影视 电影资讯 2025-06-05 14:58 2

摘要:相比其他车企每次在新品发布会上相对正式地谈论自己的智能化战略,理想汽车每次都会单开一个访谈,来面对面沟通自己对智能辅助驾驶的思考。

并非标准答案

相比其他车企每次在新品发布会上相对正式地谈论自己的智能化战略,理想汽车每次都会单开一个访谈,来面对面沟通自己对智能辅助驾驶的思考。

去年,理想汽车针对国内特殊的交通环境,比如很多车道和区域都具备动态可变性,也会有潮汐车道和可调车道,提出智驾模型不仅需要很好的决策规划,更需要常识和逻辑推理能力。

为此,理想比较创新地提出了“系统一”和“系统二”的概念模型,引发了广泛的讨论和激辩。

而今,理想汽车推出VLA,即“视觉-语言-行动”模型,能用这么短时间做到技术上再次创新,李想也坦言是”踩着巨人的肩膀”。

他表示,“DeepSeek给了我们一个巨大的推动力。原本计划在年底完成的基座模型,因DeepSeek的开源提前了九个月完成基础设施建设。”

VLA并非理想首创

虽然说理想汽车将VLA以更大的传播度带到了大众视野,但VLA并非是理想汽车行业首创。

如果溯源的话,VLA最早由DeepMind于2023年提出,应用在机器人领域,旨在通过视觉、语言与动作的端到端整合,实现AI与物理世界的交互。

去年9月,元戎启行也公开提出了VLA模型,将其定义为“端到端2.0版本”。而且元戎启行CEO周光表示,“这套系统上来以后城区智驾才能真正达到好用的状态”。

今年,智平方在机器人领域推出的GOVLA(全域全身VLA)模型,即具备从桌面到开放环境,从单臂到全身协同,从简单任务到长程推理能力的“视觉-语言-行动”模型,也进一步体现了VLA的先进性。

因此,有人提出2025是VLA元年。那VLA究竟是什么,又有什么魔力能够成为这么多企业的严选路径呢?

这不得不提到之前的“智驾香饽饽”,即“端到端”。众所周知,端到端是通过海量数据训练出来的大模型,但其本质上是一个“黑盒子”,让我们没有办法理清为何系统做出某种决策,这就导致其可解释性很差,进而可能引发一些安全上的隐患。有其当其遇见一些罕见未知场景时,模型的决策将变得不可预测,以致于车辆可能出现一些危险行为。

为了弥补这一点,VLM模型应运而生,也就是理想去年推出的“系统一”+“系统二”,但端到端+VLM的技术架构也有一些弊端。

首先,由于端到端和VLM是两个不同的模型,运行于不同的频率内,这也导致整体的联合训练和优化是非常困难的。并且,VLM是基于LLM大模型而来,其数据源来自于海量的图文数据,这就导致VLM对于3D空间的理解先天不足。

除此之外,还有一些客观原因,比如说Orin-X和Thor- U的内存带宽和算力赶不上服务器GPU,这时候再去做一些推理预测,就显得格外吃力。

有了这些问题,就会有新的解决方案来应对,而这个新的方案,就是VLA(与VLM看上去仅有一个字母的差异)。

VLA:能够自己思考的模型

VLA是视觉语言动作大模型,将空间智能、语言智能和行为智能统一在一个模型里,那么,模型就可以更全面地理解物理世界。比如说,在自动驾驶中,VLA不仅能识别红绿灯,还能理解其语义内容,如“红灯需停车”,并生成对应的刹车动作。

同时,VLA也引入了类人推理逻辑,具备语言、CoT(Chain of Thought,思维链)推理能力,能了解多重路况信息,在和其他车辆不断博弈中,做出安全的最优解。

为了实现这一功能,理想汽车不仅需要喂给模型大量高清的 2D、3D 图像数据,以及与交通相关的文字资料,还有很多对世界的理解语义。比如,将导航的地图、车辆对导航地图的理解、看到导航人类做了一个什么判断等等全部放进去。

这个过程就相当于人类学习物理世界和交通领域的常识,需要一个好的基本功。

接下来,就会进入后训练,这时会向模型投入Action数据,也就是汽车行驶时的各种操作和周围环境变化的数据。有了这些数据,基础模型就升级成 VLA 司机大模型。

这个模型还具备“思维发散”的能力,能自主预判接下来的行驶轨迹和环境变化,这也提升了其在复杂交通环境中的博弈能力。

之后会进入强化训练阶段,类似于人类在社会中实际开车练习,通过收集人类反馈,比如说什么情况下司机会接管,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。

而李想也透露下一步的计划,当技术逐步落地后,降低成本也将成为其重要目标。

写在最后

虽然大家都说汽车行业很卷,但卷不是目的,好才是目标。

在智能辅助驾驶的宣传逐渐降温后,人们在勾勒故事这件事上,也更加谨慎了。

但另一方面,技术仍在冰面下悄然演进,技术路径有共识,但也绝非毫无多元色彩。就像今天聊到的VLA,从愿景来看,确实有可能让智能辅助驾驶变得更加可靠,以及更加安全。

保持敬畏,亦保持期待,请相信智能辅助驾驶的发展会更稳,以及更有信心。

本文作者为踢车帮 晞贝

来源:踢车帮

相关推荐