摘要:如何让自动驾驶系统像经验丰富的人类驾驶员一样,具备对复杂动态交通场景的直觉式预判与决策能力?这是该领域追求的终极目标之一。近年来,功能强大的视觉语言模型(VLM)为实现这一目标带来了曙光,但其主流的“思考”方式仍存在瓶颈。
如何让自动驾驶系统像经验丰富的人类驾驶员一样,具备对复杂动态交通场景的直觉式预判与决策能力?这是该领域追求的终极目标之一。近年来,功能强大的视觉语言模型(VLM)为实现这一目标带来了曙光,但其主流的“思考”方式仍存在瓶颈。
当前的VLM在进行规划决策时,大多依赖于一种基于离散文本的“思维链”(Chain-of-Thought, CoT)。模型将连续、高维的视觉感知信息(如图像)压缩成抽象的语言符号(如“前方有车”)和坐标,再进行逻辑推理。这种“先看再写,然后思考”的模式,不仅会造成关键时空信息的损失,还引入了不必要的模态转换鸿沟,限制了其在真实世界中做出精准、可靠决策的潜力。
我们不禁要问:自动驾驶的“思考”过程,是否能更接近人类的思维模式——直接在脑海中进行场景的视觉化模拟与预演,而非依赖纯粹的符号逻辑推演?
为此,我们重磅推出全新的自动驾驶框架 FSDrive (FutureSightDrive)。其核心是一种创新的时空思维链(Spatio-temporal Chain-of-Thought, S-CoT)推理范式,赋予模型进行“视觉化预演”的能力,从而做出更直观、更安全的驾驶规划。
项目主页:https://miv-xjtu.github.io/FSDrive.github.io/论文链接:https://arxiv.org/abs/2505.17685代码链接:https://github.com/MIV-XJTU/FSDrive关键词:视觉语言动作模型 (VLA)、世界模型 (World Model)、视觉推理、时空思维链 (Spatio-temporal CoT)、自动驾驶
图1:不同思维链(CoT)对比。我们提出的时空CoT(下)以统一的视觉形式表征未来,更直观、信息更丰富
传统VLM的决策链路可以概括为“视觉→文本→推理”。这种模式的弊端在于:
信息压缩与损耗:将丰富的视觉信息强制编码为离散的文字,会丢失大量关于物体纹理、光照、精确相对位置等细粒度信息。模态转换鸿沟:在不同模态间反复转换,容易引入语义偏差,影响推理的准确性。FSDrive另辟蹊径,提出时空思维链 (S-CoT)。它不再生成中间文本,而是直接在“脑海”中生成一幅包含丰富时空信息的“未来统一图像”作为思考步骤。这幅“思考图”巧妙地融合了:
时间维度:通过生成未来场景的像素内容,模拟场景随时间的动态演变。空间维度:将未来的关键感知结果,如车道线和3D障碍物边界框,以红色线条的形式直接绘制在生成的图像上,明确未来世界的空间结构。这幅“思考图”让VLM身兼二职:
作为世界模型 (World Model) :通过生成该图像,VLM对未来世界的时空状态(可行驶区域、物体位置与动态)进行全面预测。作为逆动力学模型 (Inverse Dynamics Model) :VLM根据当前观测和自己生成的“未来思考图”,反向推理出实现这一理想未来所应执行的最佳轨迹。FSDrive藉此构建了一个端到端的视觉因果推理闭环,让模型在统一的视觉空间内完成“观察→思考→决策”全过程,从根本上解决了信息损耗和模态鸿沟问题。
为了让以理解见长的VLM具备生成高保真图像的“想象力”,我们设计了一套高效的训练范式:
统一视觉生成与理解的预训练:我们提出了一种新颖的预训练范式。通过对现有VLM词表进行微量扩展,我们成功激活了其潜藏的视觉生成能力,且此过程成本极低,并完整保留了其强大的语义理解能力。由简到繁的渐进式生成:直接生成复杂的未来场景极易出错且可能违背物理规律。为此,我们设计了一种渐进式生成策略:在预训练阶段,模型首先学习生成代表物理约束的场景“骨架”(即车道线和3D检测框),再基于此骨架“填充”场景细节。这种由粗到精的生成过程,显著提升了预测结果的物理真实感和准确性。图2:FSDrive整体框架。模型通过生成时空CoT进行视觉化思考,并最终输出轨迹规划
我们在轨迹规划、未来场景生成和场景理解三大核心任务上对FSDrive进行了全面评估,结果证明了其卓越的性能。
在nuScenes数据集的轨迹规划任务上,FSDrive在L2误差和碰撞率等关键安全指标上均取得了当前最佳(SOTA)性能,充分验证了“视觉思考”对于提升规划安全性和准确性的巨大价值。
规划性能对比
作为世界模型,FSDrive生成的未来场景质量也同样出色。实验表明,尽管FSDrive采用计算效率更高的自回归方式生成图像,其FID指标仍优于众多专用的扩散模型,证明了我们所提预训练范式的有效性。
生成质量对比
在赋予模型生成能力的同时,FSDrive的理解能力并未削弱,反而得到了协同增强。在权威的DriveLM基准测试中,FSDrive在多项问答和描述任务上均取得优异成绩。
场景理解能力评估
下图直观展示了FSDrive时空思维链的推理过程。通过生成包含未来车道线和障碍物位置的“思考图”,模型能够预见潜在风险(如前方车辆减速),并规划出更安全的避让轨迹,展现了强大的视觉因果推理能力。
可视化分析
本文提出了FSDrive,一个基于时空思维链的自动驾驶新框架,首次赋予了视觉语言模型进行“视觉化思考”的能力。通过将未来预测统一在单一的图像模态下进行中间推理,FSDrive消除了跨模态转换的语义鸿沟,建立了一套端到端的视觉推理流程。实验证明,FSDrive通过建立与物理世界更直接的像素级关联,而非依赖抽象的语言符号,有力地推动了自动驾驶技术向更高级的视觉推理阶段迈进。
来源:极市平台