摘要:“华为不会走向VLA的路径。我们认为这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重WA,也就是World Action,中间省掉language这个环节。”
撰文 | Bruce 编辑|马青竹
“华为不会走向VLA的路径。我们认为这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重WA,也就是World Action,中间省掉language这个环节。”
近日,华为智能汽车解决方案BU CEO靳玉志谈及技术路线时称。
目前,理想、小鹏、卓驭和元戎启行等选择了VLA的技术方向。而且小鹏、理想近期均宣布推送VLA。
与上述几家不同,华为ADS4采用了WEWA技术架构。据官方介绍,这一架构可使端到端时延降低50%,通行效率提升20%,重刹率降低30%。
8月下旬,靳玉志在社交平台预告,“下个月,首批ADS4将陆续推送。”
伴随华为ADS4到来,WEWA将影响新车尊界S800、问界M8等,并通过OTA,覆盖已搭载华为乾崑方案的合作车型。
而根据靳玉志公布的数据,搭载华为乾崑智驾的汽车数量已正式突破百万辆。从上车规模看,WEWA的影响不容小觑。
那么,WEWA究竟与VLA有何不同,华为乾崑为何会选择这一架构?
生成数据,解决“难例”场景
靳玉志曾对WEWA如此评价:“比VLM、VLA更智能。”
WEWA架构由两部分组成,其一,World Engine(WE),指云端的“世界引擎”;其二,World Action Model(WA),指车端的“世界行为模型”。
世界引擎基于“难例”扩散生成模型,可生成“高质量、高密度”的“难例”场景数据。
华为乾崑官方解释,所谓“难例”场景,包括前车急刹、突然出现的行人、无保护左转等。并表示,真正对安全产生威胁的“难例”场景十分罕见,难以人工采集。
靳玉志披露的数据显示,“华为(今年4月)已在云端世界引擎进行了6亿公里的高速L3仿真与验证,已为高速L3量产做好准备。”
值得注意的是,采用VLA路径的厂商(如理想、元戎启行)也同样重视仿真技术,特别是通过世界模型生成极端场景数据来训练和强化模型。
比如,理想会通过生成方式获得仿真数据,并用于训练模型。理想的MindVLA,也会基于仿真实现闭环强化学习。
通过自研的世界模型仿真系统,理想复刻了“99%的中国路况”,生成2000余种如暴雨淹路、隧道失效等传统方案难以解决的长尾场景。
不过,在仿真基础上,VLA路线的各家更依赖真实行驶数据。
比如,元戎启行认为,现实世界中很多复杂微妙的临界态,模拟器很难被描述。
临界态,主要指处于性能边界或安全边界时所产生和依赖的数据。比如,要模拟绸缎,一块布要用显卡渲染,需要把布拆成几十上百万份,在现实世界中采集,更为高效。
卓驭的VLA,同样依赖大规模真实道路场景数据训练,具有数十亿参数规模。通过融合视觉和大语言模型的能力,VLA可解析行人横穿、道路施工、特殊车辆等长尾场景。
所以,华为的WEWA更强调生成仿真,VLA偏好真实路测数据,是区别之一。但真实路测与仿真并非截然对立,而是不同技术路线各有侧重和组合。
基模型、多模态与算力平台
模型控车方面,这两个路线也有区别。
WEWA采用的世界行为模型,其工作流程是,基于摄像头、雷达/激光雷达、车内/外麦克风等获得的全模态感知数据,直接推理和决策。
这一过程中,主要涉及三项能力。
基于专为智能辅助驾驶和自动驾驶打造的原生基模型的能力,可以做到更低的时延。
全模态(视觉、听觉、触觉)感知能力,可构建全维度环境模型。
MoE多专家能力,可根据实时环境调用最优决策专家,降低计算负载,提高决策速度和准确性,提升响应能力。
在云端生成各类“难例”场景数据,用于训练大模型。之后,将训练好的云端世界模型,通过蒸馏部署到车端。再由车端模型通过多模态感知,基于MoE等能力做出决策,输出行驶轨迹等。
VLA模型因其语言模型的特性,其推理过程可能更易于被理解和解释。而WEWA架构的世界行为模型则侧重于对物理世界的直接推演和预测,如何呈现和输出思维链,有待进一步跟踪观察。
WEWA与VLA的区别,还体现在算力平台层面。VLA模型的部署,目前主要在英伟达Thor、图灵等新一代算力平台上。
原因在于,模型参数规模变大对功耗和并行计算提出要求。同时,需要有高效的硬件加速设计,让系统更好地做实时数据分析。Thor U、图灵等新一代算力平台符合这一需求。
WA模型可以直接从视觉等信息输入实现控车,无需转换成语言符号,避免了精度损失和信息转换的延迟。也许可以降低对大算力的依赖。
拼体验,“Talk is cheap”
无论何种架构,最终还要看体验如何。
基于WEWA的华为ADS4,能力再次进化。在靳玉志发布的一则视频中,华为ADS4 Beta避开了路上一个下水道井盖。
“在WEWA架构的加持下,对突发状况的处理非常类人,甚至‘超人’。避开了井盖,并减速通过,整个过程行云流水,非常丝滑。”靳玉志表示。
VLA的体验同样揭开了面纱。
就在靳玉志宣布华为ADS4推送计划的前一天,小鹏宣布,“全新小鹏P7和小鹏G7的全场景VLA来了”。
从小鹏公布的信息看,其VLA可以实现的功能,主要包括预判遮挡盲区的“鬼探头”、路口盲区提前减速、面对积水路面提前减速等。
理想也公布了VLA的进展,将于本月开启全量推送。搭载VLA的理想i8,可以在无灯控路口、无保护右转灯场景以更类人的方式通过。
可以预见,新一轮功能体验对决很快将至。
值得注意,Momenta创始人、CEO曹旭东近期发声表示:
“VLM、VLA是很好的方向,但是锦上添花的方向。提升要用强化学习,把端到端大模型放到通过海量真实数据构建起来的仿真环境去做探索,成功就给奖励,失败就给惩罚,学习到什么是安全驾驶和高效驾驶。把模型的上限和安全的上限提升100到1000倍,甚至1000到10000倍。”
无论WEWA,还是VLA,一位智驾从业人士告诉笔者,部分观点甚至没有讨论的必要,“Talk is cheap,在车上用起来才是硬道理。”
延伸阅读:端到端混战,VLM还没暖热,VLA已叫阵来源:AutocarMax