摘要:正当人工智能(AI)赋能自动驾驶,推动技术演进如火如荼之际,企业选择WA(世界行为模型)技术路线,还是VLA(视觉-语言-动作模型)技术方案,引发了行业热议。
正当人工智能(AI)赋能自动驾驶,推动技术演进如火如荼之际,企业选择WA(世界行为模型)技术路线,还是VLA(视觉-语言-动作模型)技术方案,引发了行业热议。
近日,华为智能汽车解决方案BU首席执行官靳玉志称,在辅助驾驶技术路线选择上,华为倾向于WA而非VLA。他认为,WA才是实现真正自动驾驶的终极方案。但如今在汽车行业,VLA模型拥有更多拥护者,小鹏、理想、奇瑞等都有清晰的VLA发展规划。两种技术路线各有哪些拥护者?发展的上限在哪儿?谁将是智驾最终方案……一系列问题有待解疑释惑。
一、谁的拥护者更多
截至今年7月,搭载华为乾崑智驾的车辆达到100万辆,华为辅助驾驶累计里程数达到40亿公里。至8月底,共有28款与华为合作的车型上市,其中包含“五界”和岚图、方程豹、奥迪等品牌。在辅助驾驶技术路线选择上,靳玉志提出,VLA路线看似取巧,却不是自动驾驶的终极方案;而华为更愿意尝试WA这个目前看起来很难,但能实现真正自动驾驶的技术方案。
华为不选VLA而青睐WA,其中还有哪些原因?“现阶段,WA与VLA各有优势和短板。”清华大学车辆与运载学院助理研究员颜宏伟在接受《中国汽车报》记者采访时分析,WA能够把感知、预测、决策、规划整合到同一个模型框架里,减少环节割裂,更符合人类驾驶员的认知方式。而且决策速度更快,像在高速公路突发并线场景中,WA的决策响应速度约100毫秒,而VLA为近200毫秒。借此,WA能更快调整车辆行驶动作,尽量避免碰撞事故。同时,WA对雷达感知数据和视频影像可以直接进行融合处理,比VLA能更完整保存和识别数据细节。有研究表明,在雨雾天气场景下,WA对150米外静止车辆的识别准确率比VLA高约37%。
目前,WA与VLA都不是无可挑剔的技术路线。在颜宏伟看来,WA除了研发投入门槛高、车端算力需求高,极端场景下也有表现不足等技术短板。其中,WA研发需要自建WE(云端世界引擎)与车端专用芯片协同架构来提供支持。据称华为乾崑2024年研发投入超100亿元,有8000名研发人员全力攻坚,这是中小规模车企难以复制的。同时,WA车端硬件成本比VLA高40%以上,这也制约了其在中低端车型中的推广。在实际应用方面,如果出现极端强光或弱光的情况,算法仍有不足;此外,山区弯道通行的成功率较城区低15%,这些都需要进一步改进和完善。
事实上,有不少车企仍在着力推进VLA技术路线。近日上市的全新小鹏P7应用了VLA大模型,近期发布的理想i8搭载的也是VLA。理想汽车自动驾驶研发高级副总裁郎咸朋预测,未来VLA能将事故里程提升至人类驾驶的10倍,即600万公里才出现一次事故,而人类驾驶员的这一数值平均约为60万公里。
不难发现,众车企在WA与VLA的选择上称得上是各执己见。清华大学人工智能研究院视觉智能研究中心主任、中国人工智能产业创新联盟专家委员会主任委员邓志东表示,从技术角度看,两者的视觉场景输入与行为动作输出基本相同,WA模型擅长的是利用一对一的“视觉-行为动作”进行预训练与推断应用,优势是响应更加敏捷,短板则是较难实现视觉场景与文本描述子任务之间的语义关联和知识增强。相比较看,VLA更擅长对文本语言描述的认知,优势是不仅可以实现各种动态子任务的输入,而且还可以利用文本语言描述,完成知识的导出与导入,从而实现系统知识的增强。同时,在数据标注方面,VLA可利用互联网文本数据进行预训练,降低对专业驾驶数据的依赖,初期数据获取成本仅为WA的1/3;且支持自然语言指令交互,方便了用户。此外,VLA的开发周期更短,较适合车企快速将产品推向市场。
但邓志东也认为,VLA技术存在一定局限性。如VLA对复杂路口决策准确度不足,由此限制了VLA在复杂交通场景中的应用。又如VLA对未经历过的极端工况的决策可靠性有待提高,需人工标注补充,但人工标注效率不高,这也使得VLA的技术演进需要下更多的功夫。
二、谁的上限更高
当前,WA与VLA两种技术路线,已经形成了事实上的竞争态势,而且两者各自的上限也存在差异。
如今,一些车企认同的是,WA的上限相对更高,但复杂程度也更高,实现的时间可能会更长,需要更多的算力、数据和标准的支撑。靳玉志也透露,华为在以WA匹配一款车型时,最快也需要6~9个月。“从应用看,WA的上限是构建‘数字孪生式’驾驶决策系统,核心指标包括场景覆盖率、决策正确率、硬件依赖度等方面。”在颜宏伟眼中,场景覆盖率即通过WE生成无限极端工况,实现真实驾驶场景覆盖。而WE利用扩散生成模型技术,能够高度模拟各种极端驾驶场景。通过持续生成这些虚拟场景,WA模型可以学习到更多的驾驶策略和应对方法,从而提高对真实驾驶场景的覆盖能力。有研究显示,WA模型已经能够覆盖约95%的真实驾驶场景,未来的目标是实现99.999%的覆盖率,这将意味着几乎可以应对驾驶中所有可能出现的情况。
决策正确率,通常是衡量自动驾驶系统性能的重要指标之一。理想情况下,L4级自动驾驶WA模型的目标是将人机接管率达到约每千公里0.1次,优于VLA的约每千公里1.2次。而对于硬件依赖度,邓志东提出,WA方案在持续演进的过程中,有助于逐步减少激光雷达数量依赖,有可能最终实现纯视觉方案下的全场景通行。目前的多种类传感器融合感知方案中,雷达越多感知准确度越高,但成本也越高,这限制了智能驾驶系统的大规模应用。因此,WA模型在视觉感知算法上如果能不断取得突破,就能够减少硬件依赖,有利于规模化推广普及。
而VLA则与WA有着诸多不同。“VLA本身存在细节数据有可能丢失的问题。”颜宏伟表示,VLA在将三维立体驾驶环境转化为一维语言时可能丢失细节数据的问题,将给辅助驾驶系统的极限场景决策带来一定误差。相对而言,VLA模型更擅长类似红灯停、绿灯行等场景的关联推理,但缺乏物理因果理解,像急刹时重心转移对轮胎抓地力的影响等。有研究称,这将导致冰雪路面事故率高于WA模型。VLA基于关联推理,能够根据已有的语言知识和模式进行判断,但在自动驾驶场景中,很多情况需要对物理因果关系有深入的理解,这方面VLA的上限较WA低。
此外,在邓志东看来,语言模型的训练目标是拟合人类的驾驶习惯和语言表达,以便能够更好地理解和生成自然语言。但自动驾驶的目标是要超越人类的安全阈值,确保在各种情况下都能保障乘客和行人的安全。在急速变道等场景中,人类驾驶员的习惯可能会存在一定的风险,但语言模型会试图拟合这种习惯,而自动驾驶系统则需要更加保守和安全的策略,这就导致这些因素在策略设计上存在矛盾。这种矛盾使得VLA模型在实现自动驾驶的安全目标时,面临较大的挑战。
三、谁是终极方案
面对WA与VLA两种技术路线,车企在“谁是智驾终极方案”的选择上仍是各有主见。
VLA的支持者认为,VLA的优势在于“人机协同友好”,通过语言交互实现策略透明化,降低用户焦虑,适合L2+智驾过渡阶段。在这一阶段,驾驶员仍然需要时刻关注路况,但VLA方案通过语言交互,为驾驶员提供一定程度的辅助。郎咸朋表示,VLA具备学习藏在数据背后的逻辑推理能力,能够像人一样去思考、推理和解决问题,VLA架构也将带来更强大的能力和体验提升。同时,VLA迭代能力配合在世界模型中的强化学习,能让VLA司机大模型的性能以更快的速度进化。预计明年下半年,VLA司机大模型人工接管次数(MPI)将达到1000公里1次的水平。
而来自华为方面的数据显示,目前,搭载WA的华为ADS 4.0辅助驾驶系统,在深圳、上海等超复杂城区的平均百公里接管次数为0.8次,优于主流VLA方案的百公里1.5次;这意味着WA自动驾驶系统的可靠性更高。
对此,颜宏伟认为,WA更有可能成为自动驾驶的终极方案,因为它的核心是建立对世界的认知与建模,这与人类驾驶逻辑相似,能够在不确定性和长尾事件中保持良好的稳定性、一致性。而VLA虽然部署更灵活,有成本优势,短期内能推动落地,但长期受限于其本身的一些短板,目前看更适合阶段性方案或作为一种过渡路线。
从发展的眼光看,颜宏伟提出,未来可能出现“融合路线”,即在底层以WA的世界建模为核心,在上层结合VLA大模型交互与推理能力,实现既有可解释性又有快速适应性的架构。也可能在未来AI技术新突破的加持下,出现新的架构,进一步超越目前的WA与VLA之分。
面向未来的技术演进之路,邓志东认为,在自动驾驶的规模化商业化落地进程中,各种技术方案都在不断探索、实践与试错中,目前还谈不上谁是终极方案。随着技术进步和认识的不断深化,未来或将出现更新更好的方案。最重要的判断依据就是,一个更加优秀的自动驾驶解决方案,一定是能够更加可靠地解决自动驾驶的安全性问题与产业落地的重大挑战。“没有最优,只有更优。”他强调。
文:赵建国 编辑:陈伟 版式:李沛洋
给小编加个鸡腿!
来源:中国汽车报