大厂世界模型性能对比

B站影视 电影资讯 2025-10-20 23:39 3

摘要:世界模型本质就是一种视频生成技术,当然它也可以用模拟器仿真测试。世界模型可以生成长尾训练视频,也可以直接用于自动驾驶。目前90%的世界模型都是用来生成训练视频的,摆脱对真实数据集的依赖。自动驾驶的生成模型必须准确地模拟多种因素,例如自车 (ego-vehicl

自动驾驶的世界模型可以看作是基于条件生成的视频,准确地说是基于历史的潜在隐性特征、自车动作和可控的条件输入,预测未来车辆行为的模型。

图片来源:上海OpenDriveLab

世界模型本质就是一种视频生成技术,当然它也可以用模拟器仿真测试。世界模型可以生成长尾训练视频,也可以直接用于自动驾驶。目前90%的世界模型都是用来生成训练视频的,摆脱对真实数据集的依赖。自动驾驶的生成模型必须准确地模拟多种因素,例如自车 (ego-vehicle) 的动作、其他智能体(如车辆、行人、骑自行车的人)的位置和移动及其相互作用。能够基于上下文属性进行条件生成,这些属性包括地理位置、天气、一天中的时间、道路配置(如限速、车道数、人行横道、交通信号灯、交叉路口)以及罕见但关键的边缘情况。需要生成一致的多摄像头视频流,因为自动驾驶汽车依赖于来自多个视角的空间和时间上连贯的输入来进行感知和决策。还有物理一致性,比如车辆可能产生的侧倾,航向角不可能超出方向机的物理限制,还有3D空间一致性,不能有空间撕裂或空洞等等,覆盖面非常广。

视频生成的评估指标通常是FID和FVD,其中FID即图像级别指标:视频由一系列图像帧组成,因此图像级别的评估指标可以提供对生成的视频帧质量的一定了解。常用的图像级别指标包括 Fréchet Inception Distance (FID) 、峰值信噪比 (PSNR) 、结构相似性指数 (SSIM) 和 CLIPSIM。

FID 通过比较合成的视频帧与真实视频帧来评估生成视频的质量。它涉及将图像进行归一化以获得一致的尺度,利用 InceptionV3 从真实和合成视频中提取特征,并计算均值和协方差矩阵。然后将这些统计数据结合起来计算 FID 分数。Fréchet Video Distance (FVD) 是一种基于 FID 的视频质量评估指标。与图像级别方法不同,图像级别方法使用 Inception 网络从单帧图像中提取特征,而FVD是利用在 Kinetics 上预训练的 Inflated-3D Convnets (I3D) 从视频片段中提取特征。随后,通过均值和协方差矩阵的组合来计算 FVD 分数。

FID和FVD得分越低,意味着越接近真值,保真度越高。对于自动驾驶来说,还有其他指标,首先是时间长度,传统AI领域的文本生成视频通常不超过20秒,对于自动驾驶领域来说,这难以判断模型上下文连贯性、动作一致性,也难以判断是否有累积误差,自动驾驶领域需要分钟级视频,最好是2分钟以上。这一点相当有难度,常用的基于SD帧,例如Stable Video Diffusion即SVD技术很难做到。比如要基于时空Patch如DiT才能做到。其次是帧率,人眼的帧率在50-220Hz之间,有研究表明飞行员平均人眼帧数为220Hz,而对于普通人而言,大概是50-60Hz,智能驾驶的摄像头刷新频率一般是30Hz,少数低像素摄像头可以到45Hz。传统AI领域通常只能做到10-15Hz。再次是3D位置信息,通常指标是mIoU。最后是分辨率和多视角。

目前,自动驾驶领域内的世界模型都是偏向于一方面,性能全面的还未出现,因为难度太高了,面面俱到几乎不可能,这也说明世界模型还处在摸索期。

华为(主要是诺亚方舟实验室)、理想、小米和商汤关于世界模型有多篇论文,这也是唯一能够定量性能对比的资料来源。

整理:佐思汽研,水清木华

可以看出各家都各有侧重,世界模型合成视频分为三大类,2D、3D和无场景。

2D 场景方法主要利用生成技术(如自回归 Transformer 和diffusion模型)生成高保真、物理一致的驾驶场景:

时空动态捕获:GAIA-1 通过diffusion解码器捕获驾驶场景中的时空动态和高层结构。多模态控制:DriveDreamer 扩展了条件diffusion框架,支持多模态控制和合成数据生成。一致性提升:Vista 通过stable video diffusion 和新颖的损失函数,提升了场景生成的结构完整性和动态合理性。

3D 场景演化

3D 场景方法利用栅格占用occupancy和点云数据,捕获精确的空间几何关系和动态信息:Occupancy生成 OccWorld 使用时空 Transformer 生成未来场景和自车位姿,确保全局一致性。点云生成:Copilot4D 通过离散diffusion实现高效的点云生成和预测。基于视觉的3D生成:ViDAR 从多视图图像预测未来点云演变,捕捉语义、3D结构和时间动态的协同学习。多模态融合:BEVWorld 将图像和点云数据融合为统一的鸟瞰视图(BEV)表示,生成未来场景并支持自监督学习。

无场景不关注物理世界的逼真程度,主要关注时空联合一致性、多个智能体交互发生的真实性。

以英伟达投资的Wayve的GAIA-2模型为例,GAIA-2支持对各种场景属性的调节,包括自车运动学(如速度、曲率)、地理区域(英国、美国、德国)、一天中的时间、天气以及道路布局特征的丰富分类-诸如车道的数量和类型(例如,可驾驶的、公共汽车、自行车),人行横道的存在,交通灯,以及交叉路口拓扑(如单程路、环岛路)。还允许直接控制场景中动态代理的位置、方向和尺寸。英伟达曾在 2024 年 5 月参与了 Wayve 的 10.5 亿美元 C 轮融资,当时的投资者还包括软银和微软等。2025年9月,黄仁勋随特朗普访英,Wayve再次获得英伟达5亿美元投资。

GAIA-2世界模型框架

图片来源:论文《GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving》

模型的输入是通过视频标记器独立编码的每个摄像头视图的潜在表示 x1:T ∈ RT×N×H×W×L,其中 T 是时间窗口,N 是摄像头数量。在每个时间步 t,模型还会接收一个动作向量 at 和一个条件向量 ct。模型架构包含隐藏维度为 C 的空间-时间分解 Transformer 块。动作 at 被嵌入到 RC 空间,条件向量 ct 被嵌入到 RK×C 空间 (其中 K 是条件变量的数量)。Flow Matching 的时间 τ ∈ 也通过正弦编码映射到 RC 空间。动作 at 和 Flow Matching 时间 τ 通过自适应层归一化注入到每个 Transformer 块中,而其他条件变量 ct 则通过交叉注意力机制融入。

模型使用了多种位置编码,包括空间标记位置的正弦嵌入、通过小型 MLP 处理的摄像头时间戳正弦嵌入,以及通过可学习线性层处理的摄像头几何参数 (畸变、内参和外参)。这些位置编码在每个 Transformer 块的开始被添加到输入潜在变量中。世界模型包含 22 个空间-时间分解 Transformer 块,隐藏维度 C = 4096,包含 32 个注意力头。每个 Transformer 块包含一个空间注意力层(在空间和摄像头之间)、一个时间注意力层、一个交叉注意力层和一个带有自适应层归一化的 MLP 层。为了提高训练稳定性,每个注意力层之前都使用了查询-键归一化。

GAIA-2 支持丰富且结构化的条件输入,以实现对生成场景的精细控制。这些输入包括:

自车动作 (Action):参数化为速度和曲率,并使用对称对数变换 symlog 进行归一化。动态智能体 (Dynamic Agents):使用通过 3D 目标检测器预测的 3D Bounding box表示,投影到 2D 图像平面并归一化。为了提高鲁棒性,训练时在特征维度和实例级别应用了 dropout。元数据 (Metadata):包括国家、天气、时间、限速、车道数量和类型、人行横道、交通信号灯及其状态、单行道指示和交叉路口类型,使用可学习的嵌入层进行处理。CLIP 嵌入 (CLIP Embedding):通过在视频帧上提取 CLIP 特征或使用 CLIP 文本编码器的输出来进行条件控制,通过可学习的线性投影映射到模型的潜在空间,实现零样本语义控制。场景嵌入 (Scenario Embedding):来自一个内部专有模型的驾驶特定信息编码,通过可学习的线性层投影到潜在空间。摄像头参数 (Camera Parameters):包括内参、外参和畸变,分别计算嵌入后相加形成统一的编码。视频频率 (Video Frequency):通过时间戳条件控制,时间戳经过归一化、傅里叶特征编码和 MLP 处理。

我们再来看一个比较新的自动驾驶世界模型生成视频,华为的MoVieDrive,即论文MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation,四位作者都来自华为诺亚方舟实验室。

图片来源:华为诺亚方舟实验室

现有的自动驾驶视频生成方法主要集中在RGB视频生成上,缺乏支持多模态视频生成的能力。然而多模态数据(如深度图和语义图)对于自动驾驶中的整体城市场景理解至关重要。虽然可以使用多个模型来生成不同的模态,但这会增加模型部署的难度,并且无法利用多模态数据生成的互补线索。华为构建了一个由模态共享组件和模态特定组件组成的统一扩散Transformer模型。然后利用多样化的条件输入,将可控的场景结构和内容线索编码到统一的扩散模型中,以实现多模态多视角视频生成。

在自动驾驶的城市场景合成中,主要有两个研究方向。一条研究路线探索了渲染方法,例如神经辐射场(NeRF)和3DGS(3D Gaussian Splatting),用于城市场景合成。尽管这类方法能实现高保真度的场景合成,但其可控性和多样性较差。另一条研究路线则探索了视频生成方法,例如扩散模型,用于城市场景生成。其中,一些研究专注于单视角生成,而其他研究则探讨了多视角生成。华为的工作聚焦于更具挑战性的环视场景。

扩散模型被广泛用作当代多视角城市场景生成的backbone网络,例如DriveDreamer、Panacea、MagicDrive、MagicDrive-V2、Drive-WM、MaskGWM等。尽管这些方法已展现出有希望的结果,但它们仅关注单模态的RGB视频生成,缺乏为整体场景理解生成多模态数据的能力。UniScene提出使用多个模型来生成RGB视频和LiDAR点云,但仍未能构建一个统一的模型来实现多视角多模态驾驶场景生成。与现有工作不同,华为的方法提出在统一框架内生成多模态多视角的驾驶场景视频,填补了现有方法留下的空白。

MoVieDrive框架

图片来源:华为诺亚方舟实验室

MoVieDrive框架,增加了比较多的参考条件,还有多层条件,包括3D的占有网络,道路图和Box地图。

为什么要增加深度和语义模态,因为自动驾驶是机器去“看”,和人类肉眼看到的RGB视频是截然不同的,激光雷达和摄像头通过融合获得深度信息和语义信息,还有Occ栅格占用信息或bounding box信息等等,只有增加多模态信息,这样才能让闭环的自动驾驶仿真能准确评估自动驾驶系统的安全性和可靠性。

再来看地平线的Epona,它不仅能生成视频,也能直接用于自动驾驶。

图片来源:地平线

Epona 对自动驾驶世界模型的建模范式进行了系统性重构,从而有效融合了扩散模型和自回归模型的优势。Epona 将世界模型建模为一个时序域中的逐步状态预测过程,具体来说,给定过去一段时间内的驾驶场景序列和对应的驾驶轨迹,并完成两个异步协同的生成目标。

传统视频扩散模型建模固定长度序列的联合分布,难以支持长视频生成和灵活控制。Epona 首次在扩散世界模型中显式解耦时间建模与空间生成:①时序建模:使用多模态时空 Transformer(MST)通过交错的 causal temporal attention 和 spatial attention 编码历史视觉与轨迹序列,提取紧凑的时序潜变量;②空间生成:基于时序潜变量条件,使用双-单流结构的 DiT 预测未来轨迹和驾驶场景,支持逐帧自回归生成。

Epona 引入了一种简单而有效的Chain-of-Forward(CoF)训练策略:在训练阶段周期性使用模型自身预测帧作为下一步输入,从而模拟推理阶段的分布偏移,提升模型对自身噪音的鲁棒性。减少累计误差。

上图是Epona基于NuScenes开环测试成绩,表现欠佳,VLA或者分段式传统端到端的L2平均距离最高可以做到0.19米(高德的AutoDrive-R²),平均碰撞率可以做到0.08%,现阶段世界模型和VLA比差距极大,远未成熟。

PDMS成绩还算不错,目前有测试成绩的,最好的VLA即AutoVLA成绩是92.12,高德的AutoDrive-R²估计能做到93,分段式传统端到端最好成绩是理想的TransDiffuser,能够超越人类,得分94.9。

毫无疑问,世界模型还有很长的路要走。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

来源:佐思汽车研究

相关推荐