智驾 “双巨头” 掰头:世界模型 VS VLA,理想 华为 特斯拉各押宝什么

B站影视 电影资讯 2025-10-11 18:12 1

摘要:核心逻辑:融合 “视觉感知、语言理解、动作生成” 三模态,实现 “看懂环境 + 听懂指令 + 做出动作” 的端到端 / 半端到端闭环;关键步骤:视觉编码:通过ViT/ResNet 等处理摄像头 / 雷达数据,提取环境特征(如车道线、障碍物);语言编码:用LLM

随机从以下留言用户中抽选2名用户的留言,可以获取知识星球智能座舱产品方法论 一年免费会员

世界模型与 VLA 核心原理

核心逻辑:融合 “视觉感知、语言理解、动作生成” 三模态,实现 “看懂环境 + 听懂指令 + 做出动作” 的端到端 / 半端到端闭环;
关键步骤:
视觉编码:通过ViT/ResNet 等处理摄像头 / 雷达数据,提取环境特征(如车道线、障碍物);
语言编码:用LLM(大语言模型)解析自然语言指令(如 “避开右侧施工区”),转化为语义向量;
多模态融合:通过交叉注意力等技术,将视觉特征与语言语义对齐,形成统一决策依据;
动作输出:由动作生成器(Policy Head)输出车辆控制信号(方向盘转角、油门 / 刹车力度),直接驱动行驶。
本质:在VLM(视觉 - 语言模型)基础上增加 “动作模块”,用语言作为中间媒介连接环境理解与驾驶控制。

世界模型原理

核心逻辑:模拟人类 “脑内预演”,通过学习物理规律与因果关系,在内部推演未来场景,再选最优决策;
关键步骤:
感知编码:将传感器数据(车速、障碍物位置等)通过 VAE 等压缩为 “环境潜在向量”,提取关键信息;
动态推演:基于预训练的物理规律模型,模拟未来几秒的多种环境变化(如 “前车急刹→保持车道 / 变道” 的不同结果);
控制决策:评估推演场景的风险(如碰撞概率),选择最优动作(如立即刹车);
本质:无需语言中介,直接建模物理世界动态,通过 “虚拟试错” 提升决策安全性,而非依赖统计数据匹配。

世界模型与 VLA 的核心维度对比

对比维度VLA(视觉 - 语言 - 行动模型)世界模型(World Model)本质定位带自然语言交互的 “类人司机 AI”—— 以 “理解 + 沟通 + 行动” 为核心,追求 “像人类司机一样决策并解释”智驾系统的 “虚拟预演大脑”—— 以 “物理规律模拟 + 因果推理” 为核心,追求 “提前预判风险、规避未知场景”

核心技术构成

三模块深度融合:
1. 视觉编码器(处理摄像头/点云数据)
2. 大语言模型(LLM,如理想 MindGPT)
3. 行动决策模块(扩散模型生成控制指令)

双层级架构:
1. 云端 “场景生成引擎”(生成极端/罕见场景,如华为 World Engine)
2. 车端 “决策预演模块”(预测未来 120s 交通动态,如蔚来 NWM)

核心能力1.自然交互:支持模糊语音指令(如 “前面绕一下”),可解释决策(如 “行人横穿,已减速”)
2. 拟人化行动:加减速/过弯贴合人类习惯
3. 泛化推理:依托 LLM 常识处理未见过的场景(如临时施工)1.反事实预演:“假如前车急刹,会怎样?”—— 在虚拟场景中试错
2. 长尾场景覆盖:生成人类罕见场景(如前车突然 Cut-in),密度是现实 1000 倍
3. 因果理解:识别 “施工围挡→需绕行” 的逻辑关系,而非单纯模仿数据解决的核心痛点1. 传统端到端 “黑盒决策”(无法解释为何变道)
2. 人机交互僵硬(仅支持固定指令)
3. 复杂路口拟人化不足(如急加速 / 刹车)1. 实车测试成本高(极端场景难采集)
2. 长尾场景泛化差(训练数据未覆盖的场景易失效)
3. L3+级决策安全性不足(无法预判突发风险)技术成熟度(2025)落地初期:头部车企(理想、元戎启行)实现量产,但需压缩模型规模(如理想将参数降至 5 亿级)中期阶段:华为、蔚来、Momenta 等实现 “云端训练+ 车端辅助决策”,部分支持L3仿真验证算力/数据需求算力需求高:需支持LLM实时推理(理想用 MoE 架构优化,Orin-X 芯片可跑10Hz决策);数据需多模态(视频+文本+驾驶动作)数据需求高:需海量物理规律数据(如天气、路况动态);算力集中在云端(华为云端用GPU集群生成场景)优势1. 人机信任度高(可解释决策)
2. 用户体验贴近人类(语音交互自然)
3. 城市场景适配性强(复杂交互处理)1. 安全性高(提前预演风险)
2. 研发效率高(减少实车测试)
3. 长尾场景覆盖广(突破数据局限)劣势1. 模型压缩后性能有损耗(如方言识别率待提升)
2. 极端天气决策依赖视觉精度(易受遮挡影响)1. 交互能力弱(无自然语言沟通)
2. 仿真与现实存在 “鸿沟”(虚拟场景无法 100% 还原真实)
3. 车端部署难度高(需实时预演)典型应用场景城市场景(复杂路口、人车混行)、泊车(语音控制记忆泊车)、日常通勤(习惯记忆)高速 L3场景(预判前车变道)、极端天气(暴雨/大雾)、罕见场景(施工绕路、前车急刹)

主流车企/智驾厂商技术路线与落地情况

技术路线:以 VLA为核心,融合世界模型做仿真训练

具体技术:MindVLA(理想自研VLA 模型)

核心特点

语言交互:支持 “带我回家”“这条路开 60” 等模糊指令,可解释决策(如 “前方盲区,将减速”);

拟人化驾驶:加减速平顺、三点式掉头,复杂路口通过率提升 42%;

辅助工具:用世界模型生成虚拟场景,优化极端天气下的决策精度。

落地进展

2025 年 8 月:随理想 i8 首发 VLA 功能;

2025 年 9 月:向理想 AD Max 全系(2022 款 L9 至 2025 款 i8)全量推送 VLA;

待优化:2025 年 10 月 OTA 8.1 补全部分缺失功能模块。

技术路线:世界模型深度落地,辅以端到端,不单独发展 VLA

具体技术:WEWA 架构(World Engine+World Action Model,“世界引擎 + 世界行为模型”)

核心特点

云端 “世界引擎”:生成难例场景(如前车突然 Cut-in、施工路障),密度是真实世界 1000 倍,用于模型训练;

车端 “世界行为模型”:全模态感知 + MoE 多专家系统,实时预演未来 120s 交通动态,支撑决策;

定位 L3:2025 年 4 月发布 ADS 4.0,依托世界模型完成 6 亿公里高速 L3 仿真验证。

落地进展

搭载车型:问界 M9、极狐阿尔法 S HI 版;

功能覆盖:高速 L3 级辅助驾驶(需法规落地),城市场景依赖 “车路云一体化” 补盲。

蔚来:VLM+世界模型融合(“轨迹预测 + 场景理解” 优先

技术路线:视觉语言模型(VLM)为基础,叠加世界模型(NWM,NIO World Model)具体技术:NWM 世界模型

核心特点

侧重轨迹预测:100 毫秒内生成 216 种可能行驶轨迹,预测未来 3-5 秒交通场景;

结合 VLM:识别路牌、施工标识等文本信息,优化绕行决策;

仿真训练:用世界模型生成虚拟极端场景,验证城市场景安全性。

落地进展

搭载车型:蔚来 ET5T、ES6(2025 款);

功能覆盖:城市 NOA、自动泊车,2025 年 Q2 推送 NWM 2.0 版本,提升雨夜场景预演精度。

元戎启行:纯 VLA 路线(“端到端 2.0” 定位)

技术路线:纯 VLA,拒绝世界模型单独落地(认为 “交互 + 解释” 是 L4 关键)具体技术:元戎 VLA 模型(自称 “端到端 2.0”)核心特点:突破 “黑盒”:座舱实时显示自然语言解释(如 “避让闯红灯电动车,将减速”);跨场景泛化:依托 LLM 常识,处理未训练过的场景(如临时交通管制);多场景延伸:探索智能外卖车(带机械臂),复用 VLA 模型能力。落地进展:合作车型:计划 2025 年底搭载于某新势力中型 SUV;算力支撑:适配英伟达 Thor 芯片,决策频率达 10Hz(满足实时性)。

技术路线:纯世界模型,叠加强化学习优化端到端模型

具体技术:飞轮大模型 R6

核心特点

强化学习筛选:从人类驾驶数据中 “淘汰坏行为、保留好行为”(如避免加塞);

低数据依赖:用世界模型生成虚拟数据,减少实车采集成本(比传统方案低 30%);

定位 L4:聚焦 Robotaxi 场景,通过预演降低事故率。

落地进展

2025 年下半年推送飞轮 R6,合作车企包括上汽、广汽;

测试场景:覆盖全国 30 城的复杂城市场景。

特斯拉:端到端为主,辅助世界模型(“数据闭环” 优先)

技术路线:端到端系统为核心,辅助 Cosmos 世界模型做预演

具体技术:FSD V12 端到端系统 + Cosmos 世界模型

核心特点

淡化 VLA:不强调自然语言交互,专注 “感知→行动” 直接映射;

世界模型辅助:用 Cosmos 生成极端天气(暴雪、沙尘暴)场景,优化 FSD 决策;

数据驱动:依托全球超 2000 万辆车的真实数据,迭代端到端模型。

落地进展

搭载车型:特斯拉 Model 3/Y(2025 款);

功能覆盖:全球无图智驾(除中国外),中国区待 2026 年适配法规。

小鹏汽车:VLA + 世界模型融合(“均衡发展” 策略)

技术路线:VLA 负责交互,世界模型负责预演,协同支撑 XNGP

具体技术:小鹏 VLA 模块 + XNGP 世界模型

核心特点

VLA:支持 “先左转再右转” 等组合指令,记忆用户车速偏好;

世界模型:预演路口车辆冲突(如右转与直行非机动车),提升通过率;

端到端待成熟:XNGP 端到端系统仍处于 “发育阶段”,2025 年 Q3 推送测试版。

落地进展

搭载车型:小鹏 G9、G6(2025 款);

功能覆盖:城市 NOA(90% 城区道路),泊车支持 “任意车位→任意车位” 记忆。

路线总结与未来趋势路线差异核心:VLA 聚焦 “人机交互与类人决策”,解决 “用户信任度” 问题;世界模型聚焦 “安全预演与长尾覆盖”,解决 “L3 + 安全性” 问题。融合成为主流:无车企再坚持 “纯单路线”,如理想用世界模型优化 VLA 的极端场景决策,华为在世界模型中加入语言模块提升交互(ADS 4.0 支持简单语音解释)。落地节奏:2025-2027 年是 “VLA 普及期”(从中高端下沉至 20 万级车型),2027-2030 年是 “世界模型车端落地期”(随 Thor/Orin-Next 芯片普及,实时预演成本下降)。用户感知关键:VLA 因 “语音交互 + 可解释性” 更易被用户感知(如 “小理师傅”),世界模型则需通过 “低接管率” 间接体现价值,未来需加强用户教育。

来源:常州焦点

相关推荐