摘要:车企凭借终端用户的天然触角,构建起数据护城河:理想、奇瑞、吉利等车企近期都宣称数据量达到了 1000 万 Clips;小鹏更是把这一数字拉到了两倍:2000 万 Clips。
在辅助驾驶的黄金三角——数据、算法、算力中,数据被普遍视为驱动大模型进化的「燃料」。
然而,在数据驱动的这条主轴上,车企与供应商似乎面临着不同命运。
车企凭借终端用户的天然触角,构建起数据护城河:理想、奇瑞、吉利等车企近期都宣称数据量达到了 1000 万 Clips;小鹏更是把这一数字拉到了两倍:2000 万 Clips。
马斯克认为,对于端到端辅助驾驶,用 1000 万个 Clips 进行训练,系统会有惊人表现。
这似乎意味着,车企凭借数据积累将更容易抵达大模型的升维奇点。而供应商除非获得车企信任,否则在 1000 万 Clips 的数据积累上势必要下更多功夫。
但数据驱动的竞争逻辑,从来不是单纯的「以量取胜」。
地平线创始人兼 CEO 余凯一针见血指出,「AI 时代,99% 的用户数据其实不值得学习」。
这条「反共识」观点背后,是数据价值的深度重构。
由此,在端到端架构与生成式 AI 的冲击下,数据战争的胜负手不再是「谁拥有更多燃料」,而是「谁能用 1% 的数据实现 100% 的效能跃迁」。
后端到端时代,有必要对数据课题重新审视了。
01、1000 万 Clips 等于「职业老司机」
在明确 1000 万 Clips 的意义之前,需要先明晰「Clip」的含义。
「Clip」通常指向一个特定时间段内的多模态数据片段,这些数据由激光雷达、摄像头、毫米波雷达等传感器同时捕获。
而这一概念通常与 4D 标注技术密切相关。
所谓 4D 标注,是在传统三维空间坐标之外,还加入了时间维度。对比以往的单帧 2D 框、3D 框标注,4D 标注除了要记录当前帧的车辆坐标,还要追溯前几帧的运动轨迹,因而能够更加全面与准确地描述物体在空间中的运动情况。
一位业内人士指出,Clip 指一段时间的视频切片,时间取决于模型设计,一般在 30 秒左右。
毫末智行认为,4D Clips 的数据规模对比此前 2D、3D 数据标记方式,达到了百倍级的惊人增长,是当前价值最高的感知数据形态。
由此,1000 万 Clips 模型,意味着其拥有 1000 万个信息高密度的视频切片,具备两个维度的特点。
一是极端场景覆盖率高。
数据包含难以处理的极限场景,例如高难度、连续 S 弯的山路;180°发卡弯等大曲率弯道;通过岔路口并连续变道进入转弯车道场景等。
二是数据场景分布合理。
理想汽车将道路行驶中的场景,分为静态场景和动态场景,静态场景包含城市主干道、国省道、辅路等,动态场景包含绕行、变道等。在系统训练过程中,按照静态和动态两类场景进行筛选,将不同复杂程度的场景均涵盖其中,使得辅助驾驶的场景处理能力更加拟人和高效。
这是一个给系统投喂经验的必要过程。
数量级大小相当于一个人驾驶经验的多少,如果从体验程度出发,可以将司机能力划分为普通司机、熟练司机、职业老司机三个级别。
理想认为,1000 万 Clips 模型意味着系统具备了一名职业老司机的能力,能够临危不惧,以高超的驾驶技术安全、舒适、高效地开车。
由此,这是大模型进阶的关键节点。
实际上,除了理想,小米、吉利、奇瑞在展示数据储备时也将 1000 万 Clips 数据作为重要论据。
这一论据主要传递了两点关键信息:
一是用数据规模传递系统可靠性及未来潜力,增强用户信任。
在 AI 时代,辅助驾驶依靠大量数据驱动。1000 万 Clips 代表着丰富的驾驶场景和数据量,能让辅助驾驶系统学习到各种复杂路况和驾驶情况。
以理想 AD Max V13 为例,用户可以明确感受到 1000 万 Clips 训练下,系统不再是基于规则呆板得执行程序,而是有了一种「活人感」。
比如系统变道控车时会遵循更合理的策略,避免变道博弈失败,在提升变道效率同时提升用户乘坐的舒适感,并减少对旁车的影响。以及在绕行二轮车场景下,系统会更早对二轮车行驶意图做出判断并完成绕行,速度控制更加精细、平顺。
二是用大模型的体验提升印证数据驱动方式的高效与先进性。
在数据驱动下,理想辅助驾驶水平提升有目共睹,成为首批率先达成「车位到车位」成就的车企之一。
这背后,是训练数据量的线性增长曲线。
自 2024 年 7 月底开启千人团内测以来,理想仅用 7 个月时间,完成了 100 万 Clips 初版模型向 1000 万 Clips 模型的优化迭代。
端到端技术路径的持续演进下,数据模型将在不断膨胀下,反哺辅助驾驶性能跃入 L3 时代。
而 1000 万 Clips,也会成为辅助驾驶第一梯队的核心量化条件。
02、数据「提纯」技术是关键
1000 万 Clips 有个核心限定词:高质量。
轻舟智航 CEO 于骞曾在 2025 电动车百人会上公开表示,数据训练的关键在于覆盖维度与数据质量。
前者指「泛」,后者指「精」。即在数据清洗过程中,要剔除掉重复场景与不合理驾驶行为数据。
这点与余凯的反共识观点异曲同工,「99% 的人类司机数据不值得学习」的金句背后,是指大部分人类司机的驾驶技术与习惯并不合理,存在闯红灯、随意变道等不良行为。
建立严格的数据筛选和评估标准成为必要举措。
于骞就强调,需要通过专业评分系统从 100 名司机中筛选出 1 名最优驾驶者(如礼宾车司机级)进行数据对齐。
理想汽车的做法亦是如此。
从 116 万用户的真实驾驶数据中,理想依据驾驶顺畅度、操作规范性等维度建立筛选标准,最终仅将 5% 的高质量数据纳入「五星老司机」的训练集。
这一「极致提纯」的过程,折射出辅助驾驶领域的核心矛盾:数据价值不在于量的堆砌,而在于质的穿透。
倒推来看,数据难题的本质并非「缺水」,而是「水质净化」。这就好比淘金者必须先囤积大量矿砂,才能通过筛洗提炼出黄金。
数据提纯的前提,是拥有足够庞大的「原始水源」。
当前车企与供应商获取「水源」的方式主要有三种:
第一种是对车企更友好的众包模式。
正如理想一般,让用户授权后,匿名采集用户的真实驾驶数据。
特斯拉的影子模式已经打好了样。用户在驾驶车辆时,系统在后台模拟驾驶决策,将其与驾驶员实际操作进行对比,若两者不同则上传相关数据,用于优化算法。
某种程度上,车卖得越多,用户开得越多,数据资源就积累得越多。
关键一点,在众包模式下,车企还能把用户接管数据的驱动闭环(回传-存储-分析-训练)也全部打通。
但上游的智驾供应商注定与大批量数据资源之间隔着一道坎,这道坎关乎车企信任。
Momenta 创始人兼 CEO 曹旭东说过一句很体面的话:供应商与车企之间信任关系的建立,关键在于供应商能否为用户和客户创造价值。
说白了,数据主动权不在自己手里,想要获得数据资产,得看表现。
既然不能轻易调动水源,就只能自己建水库——也就是第二种方式:组建专业的路测团队自采数据。
这已经是辅助驾驶供应商的必有任务。即将传感器安装在测试车上,在行驶过程中感应周围环境,进行物体辨识、侦测与追踪,并结合高精度地图数据采集数据。据悉,一辆测试车每天路面测试产生的数据可达 TB 级。
除了采集,路测车队的另一核心任务在于测试。因此,自采数据的优势一方面在于精准控制采集场景,比如根据研发需求定向采集特定场景数据(如暴雨、隧道、复杂路口等),另一方面在于提升训练效率,针对长尾场景的数据被训练后,系统可以在实地测试中反哺算法迭代。
当然,自建车队采集数据的成本注定会随着数据累积水涨船高。
看得见的是车队数量、设备配置、人员薪酬等硬性成本,看不见的则是数据存储与传输的隐形成本。
有媒体报道过,一家头部智驾供应商企业每年回传数据的流量费以亿元为单位,云端数据存储成本每月可能数百万到上千万元。
可以说,自采数据就像在走独木桥,在人力、财力耗费大量成本的同时,还伴随着采集极端场景的高安全风险。
因为在真实道路上,暴雨、暴雪、夜间强光等极端天气场景出现概率极低,需要耗费大量精力才能采集到。Waymo 就曾披露过,其路测车队需累计行驶超 10 亿英里才能覆盖约 2.5 万种长尾场景。
由此,第三种数据采集方式——数据仿真,走进辅助驾驶玩家们的视野。
即在仿真平台中通过生成式 AI 技术,批量生成数百万种虚拟场景,来覆盖真实路测中难以遇到的极端情况。
AI 企业在这点上掌握先发优势,比如商汤绝影打造的「开悟」世界模型,基于一个 BEV 视角下的初始主车和他车位置,就可以生成主车视角下 11V(11 个摄像头)的传感器仿真数据,并且 1 个 GPU 产生的仿真数据相当于 500 台量产车的数据采集效果。
可见,仿真数据通过低成本、高安全、广覆盖的特性,能够解决真实世界「测不全、测不起、测不快」的难题。
但这仅局限于未来的理想状态,目前数据仿真技术仍主要扮演数据采集过程中的辅助角色。
不过,可以确定的是,随着辅助驾驶向 L3、L4 级持续进阶,优质的数据资源将越来越稀缺,这也意味着三种「找水源」方式的权重也将发生动态变化。
就像马斯克笃定认为,现实世界中能够用于 AI 训练的数据几乎已经被消耗殆尽,而数据仿真才是未来数据驱动的有效解法。
03、后端到端时代,打的还是数据资源战
在辅助驾驶的当下语境内,行业讨论的技术焦点不再是「你端没端」,而是「端到端之后,下一步该研究什么?」
后端到端时代,行业正呈现出全新生态。
最直观一点,在量产落地场景上,城区智能辅助驾驶的擂台已经被选手挤满了,主要区别在于搭载哪种芯片,基于多大算力,渗透到多少万车型。
而在更高一层的「车位到车位」竞技场,华为、理想、小鹏、Momenta、极氪等多名玩家也已经冲线。
L3 成为了新的挑战门槛。
投射到技术层面上,一些技术趋势浮出水面,逐渐成为共识。
一是从模仿学习到强化学习。
简单而言,模仿学习是依赖人类驾驶数据的「标准答案」,被动模仿人类司机,而强化学习是通过虚拟环境的「奖惩反馈」,主动地试错探索。
强化学习的最直观优点,在于系统可以自主探索人类没有教过的复杂场景,让驾驶决策更加灵活智能。
在地平线提出的辅助驾驶算法「快思考、慢思考」路径中,就是引入强化学习来实现驾驶模型的智能涌现。
Momenta 也计划在今年下半年,推出基于强化学习框架的 Momenta R6 飞轮大模型。
二是从 VLM(视觉语言模型)到 VLA(视觉-语言-动作模型)。
理想是 VLA 的代表选手。李想曾将从规则算法到「端到端+VLM」,再到 VLA 的技术路线进化类比为昆虫动物智能、哺乳动物智能、人类智能三个阶段。
相当于,基于 VLA 路径,系统表现得像专职司机,可以随时听懂并执行「开快点、左拐」等指令,也能在陌生地库漫游寻找车位。
相比 VLM,VLA 在可解释性、泛化性及复杂场景适应性上都有显著提升。
由此,在算法、算力、数据三者的命运共同体之下,算法的演进同样倒逼数据产生新的化学反应。
但主轴依然还是:数据闭环。
可以说,现在没有一家车企或供应商能绕开数据闭环。
曹旭东做过一个简单总结,在辅助驾驶这条路上,百万数据大概能做个演示样品,千万数据大概能做一个及格产品,上亿数据大概能做到接近比较好的一个产品,十亿级别能做到超越人类水平的产品。
小鹏做好了准备,在达到 2000 万 Clips 数据节点后,年底预计数据存储量会飙升至 2 亿 Clips。
毫无疑问,海量且高质量的数据是推动智能驾驶前进的核动力。
所以无论是强化学习还是 VLA,两条技术趋势对于高质量数据的渴求是不变的。
只不过,如今关于数据探讨的分歧,已演变为在「从真实数据中提取有效数据」与「从仿真数据中生成有效数据」之间,二者权重该如何权衡的博弈。
目前来看,两者并重是最优解。
一方面,强化学习生长的虚拟环境同样需要高质量数据充当数据采集源头。另一方面,仿真模拟和 AI 生成数据的质量目前还不如实车行驶收集的数据。余凯就指出,数据差别的关键在于,人类还无法教机器充分认识世界,也无法在虚拟世界中完整复刻现实。
在小马智行创始人楼天城看来,真实驾驶数据对建立世界模型的作用存在局限性。世界模型若想真正理解真实世界,不仅需要驾驶数据,还需大量涵盖环境、生活等多维度的真实数据。这就如同 DeepSeek 能够解决物理问题,并非仅靠学习物理知识,而是融合了物理、化学、生物等多学科内容。
可以确定的是,辅助驾驶的未来发展离不开世界模型,且世界模型的精度直接决定了车载模型的上限。
不过,在数据应用过程中,如何规避幻觉数据干扰、构建科学的评价体系,仍是一个持续性探索过程。
而如果跳出技术细节用更宏观的视角看待这个过程,各玩家对于高质量数据的追求背后,其实是对庞大资源的不断消耗,关乎人力、物力、财力。
曹旭东在采访中直言,现在一年投入小几十个亿,就能做到第二梯队或准第一梯队水平,但再往后,要几百亿才能做到同样水平。如果要做到量产 L4 自动驾驶,每年的研发投入至少是百亿甚至几百亿。
辅助驾驶赛道越向深水区延伸,越需要具备「高举高打」的战略视野。
特斯拉已经做了示范,但极高的竞争壁垒下,还没有玩家能抄到特斯拉的作业。
因此辅助驾驶开启淘汰赛后,规则很清晰,竞争格局也很清晰。
由技术投入强度、数据积累速度、场景覆盖广度构成的核心筛网,让头部玩家与追赶者的分化不断加速。
在当前这个关键赛点上,一个最直观的实力刻度已经出现,即谁先迈过 1000 万 Clips 的数据门槛,谁就能拿到辅助驾驶第一梯队的入场券。
来源:汽车之心Autobit一点号