FSDrive突破自动驾驶推理瓶颈:时空视觉CoT如何降碰撞、提效率?

B站影视 韩国电影 2025-10-02 10:59 1

摘要:但这些模型大多靠文字“唠嗑”做决策,好比你让导航用文字描述路口转弯,绕来绕去说不定就迷糊了。

要说现在自动驾驶圈啥最火,多模态大模型绝对算一个。

但这些模型大多靠文字“唠嗑”做决策,好比你让导航用文字描述路口转弯,绕来绕去说不定就迷糊了。

2025年9月30日,FSDrive整了个大活:提出“时空视觉CoT”,让模型直接“看图片想事儿”,把未来路况和障碍物标在一张图上当“草稿纸”,这波操作直接戳中了行业痛点。

传统自动驾驶模型就像个死记硬背的学生,靠文字规则做题。

FSDrive不一样,它干了三件事,让模型秒变“视觉达人”。

第一招,用图代替文字当“翻译”。以前模型得把图像翻译成文字再推理,好比看电影先转成字幕,信息早丢了大半。

FSDrive直接让模型对着未来路况图琢磨:红色车道线标可行区域,3D框圈出障碍物,一眼看明白该往哪走。

这就像导航直接给你看实时街景AR箭头,比文字指路靠谱多了。

第二招,花小钱办大事。别家模型想生成图像,得大改架构猛砸数据,FSDrive偏不。

它就像给模型扩了本“图文词典”,把图像像素编成特殊“单词”塞进词表,模型照着自回归“造句”就能生成图。

最绝的是数据用量:只需同类方法的0.3%,搁以前这叫“空手套白狼”,放现在就是“性价比之王”。

第三招,按“套路”出牌。

FSDrive教模型“由简到难”画未来图:先画车道线定规矩,再标动态物体定节奏,最后补全细节。

就像学画画先练线条再上色,这样生成的图既符合物理规则,又不会出现“车穿墙”的离谱场景。

光吹不练假把式,FSDrive拉到实测场就露了真本事。

和Doe-1模型比,它在不依赖自车状态数据时,轨迹规划的L2误差低了近30%,碰撞率从0.21跌到0.19:相当于100次驾驶少撞两次车。

和UniAD比更夸张,碰撞率直接砍了25%,这要是放现实里,怕是能让保险公司偷着乐。

生成未来帧的质量也不含糊。FSDrive的FID值10.1,比扩散模型GEM还低,关键是生成速度快,不像有些模型磨磨蹭蹭半天憋不出图。

场景理解能力也没落下,DriveLM GVQA得分0.57,比OminiDrive还高,问它路口咋走、障碍在哪,对答如流。

最有意思的是它的“纠错”能力。

要是输入错误导航指令,比如“在禁止左转路口硬转”,FSDrive能盯着摄像头和未来预测图自己琢磨:“不对劲啊这路”,然后默默修正路线。

这相当于副驾多了个会看路的智能助手,比人类司机反应还快。

FSDrive这波操作,把自动驾驶从“文字游戏”拉到了“视觉推理”赛道。

不用大改模型架构,靠扩词表和调参数就激活了图像能力,对车企来说简直是“省钱福音”,毕竟训练数据和算力成本能压下来,技术落地就更快了。

但也别高兴太早,现在FSDrive主要生成前视图像,环视预测还没安排上,复杂路口场景可能会“看漏”。

而且技术落地得考虑安全和隐私,比如图像数据会不会泄露路况信息,这些都得慢慢打磨。

不过话说回来,从依赖文字符号到直接“看图思考”,这步子迈得够大。

以后自动驾驶模型说不定真能像人一样“眼看六路”,靠视觉推理做决策。

到那时候,开车说不定比现在还省心,当然,前提是技术得把所有角落都“看明白”。

总之,FSDrive给行业指了条明路:视觉推理可能才是自动驾驶的“正确打开方式”。

至于这条路能走多远,那就得看后续技术能不能把“看图说话”玩得更溜了。

来源:萌萌思密达

相关推荐