FSDrive入选NeurIPS 2025 Spotlight | 自动驾驶迎来视觉思考新范式

摘要：如何让自动驾驶系统像经验丰富的人类驾驶员一样，具备对复杂动态交通场景的直觉式预判与决策能力？这是该领域追求的终极目标之一。近年来，功能强大的视觉语言模型（VLM）为实现这一目标带来了曙光，但其主流的“思考”方式仍存在瓶颈。

如何让自动驾驶系统像经验丰富的人类驾驶员一样，具备对复杂动态交通场景的直觉式预判与决策能力？这是该领域追求的终极目标之一。近年来，功能强大的视觉语言模型（VLM）为实现这一目标带来了曙光，但其主流的“思考”方式仍存在瓶颈。

当前的VLM在进行规划决策时，大多依赖于一种基于离散文本的“思维链”（Chain-of-Thought, CoT）。模型将连续、高维的视觉感知信息（如图像）压缩成抽象的语言符号（如“前方有车”）和坐标，再进行逻辑推理。这种“先看再写，然后思考”的模式，不仅会造成关键时空信息的损失，还引入了不必要的模态转换鸿沟，限制了其在真实世界中做出精准、可靠决策的潜力。

我们不禁要问：自动驾驶的“思考”过程，是否能更接近人类的思维模式——直接在脑海中进行场景的视觉化模拟与预演，而非依赖纯粹的符号逻辑推演？

为此，我们重磅推出全新的自动驾驶框架 FSDrive (FutureSightDrive)。其核心是一种创新的时空思维链（Spatio-temporal Chain-of-Thought, S-CoT）推理范式，赋予模型进行“视觉化预演”的能力，从而做出更直观、更安全的驾驶规划。

项目主页：https://miv-xjtu.github.io/FSDrive.github.io/论文链接：https://arxiv.org/abs/2505.17685代码链接：https://github.com/MIV-XJTU/FSDrive

关键词：视觉语言动作模型 (VLA)、世界模型 (World Model)、视觉推理、时空思维链 (Spatio-temporal CoT)、自动驾驶

图1：不同思维链（CoT）对比。我们提出的时空CoT（下）以统一的视觉形式表征未来，更直观、信息更丰富

传统VLM的决策链路可以概括为“视觉→文本→推理”。这种模式的弊端在于：

信息压缩与损耗：将丰富的视觉信息强制编码为离散的文字，会丢失大量关于物体纹理、光照、精确相对位置等细粒度信息。模态转换鸿沟：在不同模态间反复转换，容易引入语义偏差，影响推理的准确性。

FSDrive另辟蹊径，提出时空思维链 (S-CoT)。它不再生成中间文本，而是直接在“脑海”中生成一幅包含丰富时空信息的“未来统一图像”作为思考步骤。这幅“思考图”巧妙地融合了：

时间维度：通过生成未来场景的像素内容，模拟场景随时间的动态演变。空间维度：将未来的关键感知结果，如车道线和3D障碍物边界框，以红色线条的形式直接绘制在生成的图像上，明确未来世界的空间结构。

这幅“思考图”让VLM身兼二职：

作为世界模型 (World Model) ：通过生成该图像，VLM对未来世界的时空状态（可行驶区域、物体位置与动态）进行全面预测。作为逆动力学模型 (Inverse Dynamics Model) ：VLM根据当前观测和自己生成的“未来思考图”，反向推理出实现这一理想未来所应执行的最佳轨迹。

FSDrive藉此构建了一个端到端的视觉因果推理闭环，让模型在统一的视觉空间内完成“观察→思考→决策”全过程，从根本上解决了信息损耗和模态鸿沟问题。

为了让以理解见长的VLM具备生成高保真图像的“想象力”，我们设计了一套高效的训练范式：

统一视觉生成与理解的预训练：我们提出了一种新颖的预训练范式。通过对现有VLM词表进行微量扩展，我们成功激活了其潜藏的视觉生成能力，且此过程成本极低，并完整保留了其强大的语义理解能力。由简到繁的渐进式生成：直接生成复杂的未来场景极易出错且可能违背物理规律。为此，我们设计了一种渐进式生成策略：在预训练阶段，模型首先学习生成代表物理约束的场景“骨架”（即车道线和3D检测框），再基于此骨架“填充”场景细节。这种由粗到精的生成过程，显著提升了预测结果的物理真实感和准确性。

图2：FSDrive整体框架。模型通过生成时空CoT进行视觉化思考，并最终输出轨迹规划

我们在轨迹规划、未来场景生成和场景理解三大核心任务上对FSDrive进行了全面评估，结果证明了其卓越的性能。

在nuScenes数据集的轨迹规划任务上，FSDrive在L2误差和碰撞率等关键安全指标上均取得了当前最佳（SOTA）性能，充分验证了“视觉思考”对于提升规划安全性和准确性的巨大价值。

规划性能对比

作为世界模型，FSDrive生成的未来场景质量也同样出色。实验表明，尽管FSDrive采用计算效率更高的自回归方式生成图像，其FID指标仍优于众多专用的扩散模型，证明了我们所提预训练范式的有效性。

生成质量对比

在赋予模型生成能力的同时，FSDrive的理解能力并未削弱，反而得到了协同增强。在权威的DriveLM基准测试中，FSDrive在多项问答和描述任务上均取得优异成绩。

场景理解能力评估

下图直观展示了FSDrive时空思维链的推理过程。通过生成包含未来车道线和障碍物位置的“思考图”，模型能够预见潜在风险（如前方车辆减速），并规划出更安全的避让轨迹，展现了强大的视觉因果推理能力。

可视化分析

本文提出了FSDrive，一个基于时空思维链的自动驾驶新框架，首次赋予了视觉语言模型进行“视觉化思考”的能力。通过将未来预测统一在单一的图像模态下进行中间推理，FSDrive消除了跨模态转换的语义鸿沟，建立了一套端到端的视觉推理流程。实验证明，FSDrive通过建立与物理世界更直接的像素级关联，而非依赖抽象的语言符号，有力地推动了自动驾驶技术向更高级的视觉推理阶段迈进。

来源：极市平台

标签：范式 neurips spotlight 视 fsdrive

本文地址：http://news.43b.com.cn/a/1375569.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!