摘要:商汤绝影 CEO 王晓刚、理想汽车智驾研发负责人贾鹏、元戎启行 CEO 周光、小米汽车自动驾驶与机器人部杨奎元、卓驭 AI 首席技术官陈晓智先后发言,他们观点中最核心的内容其实就在两个方面,一是端到端智驾的落地,二是下一代 VLA 模型(Vision-Lang
全球 AI 界的顶级盛会——英伟达 GTC 已经在美国西海岸的圣何塞正式开幕。昨天和今天,大半个中国智驾圈齐聚 GTC,畅谈 2025 智驾未来。
商汤绝影 CEO 王晓刚、理想汽车智驾研发负责人贾鹏、元戎启行 CEO 周光、小米汽车自动驾驶与机器人部杨奎元、卓驭 AI 首席技术官陈晓智先后发言,他们观点中最核心的内容其实就在两个方面,一是端到端智驾的落地,二是下一代 VLA 模型(Vision-Language-Action,视觉-语言-动作)模型。
就在今早,理想汽车和元戎启行分别发布了 VLA 模型。李想发微博称:「这是我们通往 L4 路上最重要的一步。就像 iPhone 4 重新定义了手机,MindVLA 也将重新定义自动驾驶。」
在落地时间上,这两家最先在智驾领域推出 VLA 架构的公司也是不谋而合,理想 MindVLA 将与 i8 一同到来,元戎启行计划年中搭载进入多款车型。
2025 年的智驾竞争,VLA 会是非常关键的一环。
在智驾量产落地的过程中,「端到端」已经成为任何一家厂商都绕不开的技术。去年全年,小米汽车完成了高速 NOA - 基于规则的城市 NOA - 端到端智驾的三代技术路线升级,最新的端到端版本将用上超过 1,360 Clips 训练的模型。商汤绝影的端到端智驾方案 UniAD 也将在今年正式量产上车。此外,卓驭也希望打造更具个性化的端到端智驾系统。
在实现端到端 + VLA 的背后,恰好是英伟达提供了核心算力以及大量的工具链。在中国智驾市场中,英伟达也一直占有核心的市场地位。面对华为、特斯拉等强劲对手的「围剿」,英伟达和它的朋友圈如何应对 2025 年智驾的竞争,在本届 GTC 上我们找到了答案。
理想发布 VLA 模型,动动嘴就能控车
也许过不了多久,语音也可以自如地指挥车辆智能驾驶了。比如我们想喝咖啡,于是就让车找家星巴克,然后到了地方把我们放在门口。
值得高兴的是,这种场景并不是一种在脑海中的设想。在英伟达 GTC 大会上,理想智驾研发负责人贾鹏就通过视频的方式演示了这种场景。
贾鹏还演示了另外两种场景,一种是车主也不清楚自己在哪儿,但是可以呼唤车子来接;另一种则是车主先行下车,接着让车子自行去寻找车位。
总的来说,贾鹏把这形容为「每个人的专职司机」,并且他还表示理想会「重新定义智能驾驶」。
之所以能够实现这样的场景,据贾鹏介绍,理想依靠的是 VLA 技术,也就是视觉语言动作模型(Vision-Language-Action Model),而理想则把自己的 VLA 技术称作 MindVLA。
当前,理想的智能驾驶技术仍是端到端 + VLM。这套技术方案上车之后,不仅大幅提升了理想的智驾水平,而且还助推了 AD Max 车型销量的增长。不过,贾鹏表示,端到端 + VLM 也有很多问题。
比如,端到端和 VLM 是两个独立的模型,要联合训练比较困难。此外,端到端 + VLM 还有对 3D 空间理解不够、驾驶知识和内存带宽不足、难以处理人类驾驶的多模态性等问题。
对于人类驾驶的多模态性,贾鹏专门做了进一步的解释,就是指同样一个驾驶行为,人不同的话,驾驶状态也会不同。另外,即使是同一个人,心情不一样的时候,开车的方式也会出现不同。
而 MindVLA,据贾鹏介绍,它并不是简单粗暴地将端到端和 VLM 这两个模型统一在一起,这其中有很多模块都需要重新设计。在能力上,MindVLA 可以同步提高智驾的上限和下限,实现空间、行为和语言的统一。
具体地说,MindVLA 可以对 3D 空间有更好的理解;具备语言智能,可以理解车主的语音驾驶指令;能够在世界模型中强化学习等。
最终,借助 VLA,理想就是要实现类似于开头所说的那些驾驶场景。而等到那些驾驶场景真的落地的时候,车子也就更像是一个四轮机器人了。
小米杨奎元:端到端数据量超 1,360 万 Clips
2021 年,小米汽车正式立项,当时杨奎元就已经加入小米汽车。四年来,他参与了小米 SU7 智驾的研发、量产到 OTA 的全程。
在本届 GTC 上,小米汽车自动驾驶与机器人部杨奎元分享了小米端到端全场景智能驾驶在物理世界探索、建模方面的技术细节。
区别传统的模块化架构,端到端智驾从输入端到输出端只有一个模型,从之前的感知模型化,拓展到了感知规控模型化。对于端到端智驾来说,数据驱动和模型泛化能力至关重要。
这也是小米智驾系统快速量产交付背后的秘密。2024 年 3 月,小米 SU7 交付即搭载高速 NOA;2024 年 8 月,实现 NOA 全国都能开;2024 年底,小米推送端到端先锋版。目前,小米智驾系统为端到端 + VLM。杨奎元称:「小米智能驾驶实现了一年追三代。」
杨奎元谈到,无论是 SU7、SU7 Ultra 还是 YU7,小米在设计车辆的时候,充分考虑到了车辆对物理世界探索,以及实现高阶智驾需求。从外观上,传感器选型和安装上保持不同车型的硬件一致性,打好了规模化探索物理世界的硬件基础。
去年 3 月交付之后,目前参与物理世界探索的车队规模已经超过 18 万辆(今天下午小米汽车宣布交付已经突破 20 万),同时还在以每月 2 万辆的速度攀升。
车队规模快速增长,也让行驶里程快速增加。去年年底,车队每天行驶里程 500 万公里。目前,车队每天行驶总里程接近 1,000 万公里。
对于端到端智驾来说,停车场、ETC 收费站、城区环岛、乡村道路等就是难点场景。训练这些场景则需要连续视频片段(Clip)。在杨奎元的分享中,去年 10 月,小米汽车的训练数据为 238 万 Clips,经过四个月的累积,今年 2 月达到 1,363.8 万 Clips。
杨奎元说:「这也是下一个千万 Clips 端到端版本所用的训练数据量。」
在拥有丰富的物理世界探索数据后,还需要对物理世界进行建模。
杨奎元指出,物理世界建模分为三层:分别是Ot(原始的数据观测层,通过车身传感器记录物理世界)、Zt(深度神经网络的隐式特征层,数据驱动的方式形成对当前场景的理解)、St(方便人理解和操作的显示符号层)。
对应神经网络中的输入层、中间层以及输出层。其中数据观测层需要图像、激光雷达点云、导航信息(Ot),通过 BEV 编码网络,得到 BEV 的隐式表达(Zt),通过不同的解码器,得到动态元素、静态元素、未来轨迹。经过不同的建模方式,最终经过人工建模的 Cost(包括碰撞 Cost、车道偏移 Cost、舒适性 Cost)约束轨迹的合理性。
另外还有个时间维度,历史帧很简单建模容易,但是未来帧无法直接观测,是建模的重点和难点。
数据观测层(Ot)有很多工具可以使用,比如 3DGS 重建技术,或者是 OpenAI 的 Sora、英伟达 Cosmos 等等。生成大模型通过直接拟合原始数据的概率分布,加上额外使用历史帧图像、隐式特征、显示符号等控制条件,可以进行原始信号的生成。这部分生成速度比较慢,主要在云端仿真物理世界,用于闭环仿真评测以及长尾数据生成。但是生成模型主要用于传感器细节信号恢复,但是理解能力欠佳。当然,也有部分生成 + 理解的隐式特征空间。
智驾领域,还没有成熟的基座模型可以用于生成稳定的特征表达。
显示符号层,人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,通过规则代码的方式和模型结合完成时序上的建模。比如匀加速、轨迹采样等。
同时,小米正在尝试将三层表达联合起来的时序建模。还能将深度神经网络模型上将中间的隐式特征在时序纬度上拓展到未来帧,由此可以形成完整的时空神经网络模型,统一由数据驱动学习。在未来帧预测变化时,小米同样对动静态元素分开处理。
在工程落地上,小米与英伟达在云端、车端也进行了大量落地优化。
元戎启行 CEO 周光:VLA 年中上车
周光在演讲中首先谈到了过去一年元戎启行在智驾领域的进展。
去年,元戎启行智驾方案合作落地两款车型(魏牌蓝山、smart 精灵 5 号),今年预计将会推出十余款智能驾驶车型落地。在 2024 年第四季度,元戎启行在国内城市智驾市场占有率达到 15.3%。
目前,元戎启行的智驾方案已经搭载进入超过 4 万台汽车,截至 2 月底,元戎启行智驾总里程 4,000 万公里。周光预计,今年将有 20 万台进入市场,2026 年将有 50 万台车搭载元戎启行的智驾系统。此外,元戎启行已在德国进行路测。
在快速上车的同时,元戎启行的下一代智驾系统也正在开发。去年 9 月,元戎启行开始研发 VLA 模型,希望能够用这套模型处理复杂的长尾场景。根据规划,今年年中元戎启行的 VLA 模型将部署在多款车型上。
周光展示了元戎启行 VLA 模型的架构:
最下方 Input 是输入。其中有摄像头等传感器的图像输入,也有文本输入,这可以是来自车内人员的指令输入,或者是来源于智能座舱、导航的信息。
上一层是视觉编码器和文本编码器。其中,视觉编码器负责处理输入的图像,提取特征。文本编码器捕捉语义,理解文本指令。
再之上是视觉、文本融合,这也就是 VLA 模型的核心,让模型同时理解图像和文本的指令。
最终,输出驾驶行为,以及文字输出。
实际上,VLA 模型有相当多的优势,其中最大优势之一就是与现有的大语言模型范式兼容。其中 VLA 模型同样遵从 Scaling Law,随着模型参数提升,性能也会提升。同时,用预训练、后训练、持续训练改进模型。同时还兼容 DPO、RLHF、GRPO 等技术。并且,思维链可以直接用于推理决策(潮汐车道的思考)。
VLA 的另一大核心优势,则是可以让智驾更像人。将基于规则的偏好注入模型,让 VLA 符合人类预期的驾驶决策。这意味着,VLA 模型能够识别并优先考虑安全的驾驶行为,从而减少现实世界中的不良习惯。此外,还能选择人类偏好的最优路径。
周光还专门讲到了 VLA 的挑战:
最重要的是实时响应的能力。基于英伟达 AGX 平台,当前一代产品 VLA 的处理速度大约是 5 FPS,下一代平台的速度是 20 FPS。
数据。需要丰富的现实世界数据,VLA 开发会优先使用现实世界数据,真实世界远比模拟器复杂。
在 VLA 模型发布后,元戎启行的下一个目标则是实现道路上的通用人工智能(RoadAGI)。
周光在演讲中播放了这样一段视频,一辆带有机械臂的无人配送车可以像外卖小哥一样,实现城市内小区-小区,店铺-店铺的点到点自动驾驶。穿越闸机旁边的狭窄通道,自动识别街边店铺之后,无人配送车来到取外卖的店铺门口。店员把外卖装进车里之后,无人配送车可以走人行道、过马路送外卖。
第一单是送到外卖柜,这里高能,配送车里藏着一个机械臂,可以自动把外卖拿出来放进外卖柜里,然后关闭外卖柜。
第二单是送到写字楼前台,配送车自己过闸机,用机械臂自己按电梯,最后外卖放在公司前台。
在演讲中,周光并没有透露是否量产这款无人配送车,但这样的能力,或许就是元戎启行对 RoadAGI 的设想。
商汤绝影王晓刚:端到端将在今年量产
在英伟达 GTC 上,商汤绝影 CEO 王晓刚宣布 UniAD 已经获得项目定点,并且在今年就会量产。
UniAD 是商业绝影研发的一种端到端智驾方案,早在 2022 年,商汤绝影就提出了 UniAD。到了去年 11 月份,商汤绝影则正式发布了 UniAD。
值得注意的是,UniAD 基于英伟达 Drive AGX 平台的 MIG 技术研发,支持端到端和传统规则方案的双系统运行。王晓刚表示,商汤绝影在此基础上充分发挥了双系统协同的作用,设计了首个量产级的、极致安全的端到端智驾解决方案,能在复杂交互场景中保障行车安全。
同时,王晓刚还介绍了商汤绝影的世界模型 —— 开悟。王晓刚表示,开悟可以理解真实世界中的物理法则和交通规则,生成场景也非常可控,能够以「元素级别」的精度去控制场景,完全可以满足端到端模型训练和仿真对于数据质量的高要求。
开悟生产数据的效率也非常高。据王晓刚介绍,开悟基于 1 张英伟达 A100,平均每天的数据生产能力,大约相当于 100 台路测车所拥有的数据采集能力。
此外,通过世界模型,开悟还能够实现多样化和真实的场景推演,以及专家轨迹生成,最终形成端到端智驾的数据闭环和自我迭代的能力。
针对开悟大模型的综合实力,王晓刚表示它可以大幅降低端到端模型训练的数据门槛,并在充分探索各种可能性的基础上有望实现远超人类的驾驶表现。
除了 UniAD,王晓刚还介绍了商汤绝影在智能座舱上的研发成果 —— A NEW MEMBER FOR U。
「A NEW MEMBER FOR U」是一个情感陪护伙伴,在去年 11 月份就发布了。据王晓刚分享,「A NEW MEMBER FOR U」感知敏感性、互动积极性都非常高,它可以持续推理用户需求,记忆自我进化,记住用户生活习惯,甚至是主动提醒在车内吃糖的小朋友少吃糖。
在体验上,「A NEW MEMBER FOR U」依靠 Always-on 持续运行框架,可以做到零拷贝传输,并支持持续推理,推理速度高达每秒 96 tokens,针对复杂场景可以做到更实时的响应。
最后,王晓刚还介绍道,到 2026 年,商汤绝影将和英伟达完成舱驾融合产品在各大车厂的量产落地,并加速智能汽车进入 AGI 时代。
卓驭陈晓智:让智驾更个性化
在英伟达 GTC 上,卓驭 AI 首席技术官陈晓智指出一个问题 —— 当前的端到端智驾,其通过数据训练所学到的驾驶能力是一种平均风格,但在实际驾驶中,每个人都有自己的独特的风格,所以端到端智驾与真实人驾还有很大的差距。
因此,在卓驭的目标中,就是令端到端智驾摆脱其平均驾驶风格,进而满足用户或激进、或保守的个性化驾驶需求。这里的个性化包括三点:
个性化的驾驶风格,需要系统在长时间维度上理解用户驾驶行为;
个性化的驾驶风格,是指在某个具体的驾驶动作上符合用户的个性化要求;
支持语音交互。
这套技术方案卓驭将其归纳总结为「生成式智驾体验」。
为了实现「生成式智驾体验」,据陈晓智介绍,卓驭首先是基于世界模型完成智驾的预训练和后训练,其中预训练会以每周迭代的速度打牢智驾的基础能力问题,后训练则以每天迭代的速度解决长尾问题。
接着是端到端提示推理,用户可以用语音来提示智驾,从而令智驾更清晰地知道用户意图,最终推理出符合用户意图的驾驶轨迹。
此外,陈晓智还介绍道,「生成式智驾体验」适用于任何构型的硬件方案,并且对先验地图的依赖性也比较弱。
根据官方信息,卓驭的「生成式智驾体验」基于英伟达 DRIVE AGX 平台打造。同时,卓驭还基于该平台打造了一套舱驾一体的融合大模型,陈晓智表示,简单地说,其实就是智驾域和座舱域共享一套 LLM 大模型。
至于上述的「生成式智驾体验」何时落地,陈晓智表示,卓驭在今年内就会将其量产。
写在最后
英伟达 GTC 大会已经见证了中国智驾领域的集体爆发,今年,VLA 模型与端到端技术正是通向更好用智驾的核心路径。理想、元戎启行等厂商率先推出 VLA 架构,通过融合语言指令与驾驶决策,让车辆真正成为能理解人类意图的「四轮机器人」。
在这场技术革命中,英伟达的算力底座与工具链成为关键推手,助力车企跨越感知、决策与执行的鸿沟。随着 VLA 上车、端到端大规模量产,2025 年智驾竞争将聚焦于场景泛化能力与用户体验的个性化。当车企与科技公司携手突破技术边界,智驾正从功能模块迈向通用人工智能(AGI),而这场变革的终点,或许是重新定义人与机器的共生关系。
来源:42号车库