FSDrive突破自动驾驶推理瓶颈：时空视觉CoT如何降碰撞、提效率？

摘要：但这些模型大多靠文字“唠嗑”做决策，好比你让导航用文字描述路口转弯，绕来绕去说不定就迷糊了。

要说现在自动驾驶圈啥最火，多模态大模型绝对算一个。

但这些模型大多靠文字“唠嗑”做决策，好比你让导航用文字描述路口转弯，绕来绕去说不定就迷糊了。

2025年9月30日，FSDrive整了个大活：提出“时空视觉CoT”，让模型直接“看图片想事儿”，把未来路况和障碍物标在一张图上当“草稿纸”，这波操作直接戳中了行业痛点。

传统自动驾驶模型就像个死记硬背的学生，靠文字规则做题。

FSDrive不一样，它干了三件事，让模型秒变“视觉达人”。

第一招，用图代替文字当“翻译”。以前模型得把图像翻译成文字再推理，好比看电影先转成字幕，信息早丢了大半。

FSDrive直接让模型对着未来路况图琢磨：红色车道线标可行区域，3D框圈出障碍物，一眼看明白该往哪走。

这就像导航直接给你看实时街景AR箭头，比文字指路靠谱多了。

第二招，花小钱办大事。别家模型想生成图像，得大改架构猛砸数据，FSDrive偏不。

它就像给模型扩了本“图文词典”，把图像像素编成特殊“单词”塞进词表，模型照着自回归“造句”就能生成图。

最绝的是数据用量：只需同类方法的0.3%，搁以前这叫“空手套白狼”，放现在就是“性价比之王”。

第三招，按“套路”出牌。

FSDrive教模型“由简到难”画未来图：先画车道线定规矩，再标动态物体定节奏，最后补全细节。

就像学画画先练线条再上色，这样生成的图既符合物理规则，又不会出现“车穿墙”的离谱场景。

光吹不练假把式，FSDrive拉到实测场就露了真本事。

和Doe-1模型比，它在不依赖自车状态数据时，轨迹规划的L2误差低了近30%，碰撞率从0.21跌到0.19：相当于100次驾驶少撞两次车。

和UniAD比更夸张，碰撞率直接砍了25%，这要是放现实里，怕是能让保险公司偷着乐。

生成未来帧的质量也不含糊。FSDrive的FID值10.1，比扩散模型GEM还低，关键是生成速度快，不像有些模型磨磨蹭蹭半天憋不出图。

场景理解能力也没落下，DriveLM GVQA得分0.57，比OminiDrive还高，问它路口咋走、障碍在哪，对答如流。

最有意思的是它的“纠错”能力。

要是输入错误导航指令，比如“在禁止左转路口硬转”，FSDrive能盯着摄像头和未来预测图自己琢磨：“不对劲啊这路”，然后默默修正路线。

这相当于副驾多了个会看路的智能助手，比人类司机反应还快。

FSDrive这波操作，把自动驾驶从“文字游戏”拉到了“视觉推理”赛道。

不用大改模型架构，靠扩词表和调参数就激活了图像能力，对车企来说简直是“省钱福音”，毕竟训练数据和算力成本能压下来，技术落地就更快了。

但也别高兴太早，现在FSDrive主要生成前视图像，环视预测还没安排上，复杂路口场景可能会“看漏”。

而且技术落地得考虑安全和隐私，比如图像数据会不会泄露路况信息，这些都得慢慢打磨。

不过话说回来，从依赖文字符号到直接“看图思考”，这步子迈得够大。

以后自动驾驶模型说不定真能像人一样“眼看六路”，靠视觉推理做决策。

到那时候，开车说不定比现在还省心，当然，前提是技术得把所有角落都“看明白”。

总之，FSDrive给行业指了条明路：视觉推理可能才是自动驾驶的“正确打开方式”。

至于这条路能走多远，那就得看后续技术能不能把“看图说话”玩得更溜了。

来源：萌萌思密达

标签：时空推理 cot fsdrive 视觉cot

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!