摘要:但这些模型大多靠文字“唠嗑”做决策,好比你让导航用文字描述路口转弯,绕来绕去说不定就迷糊了。
要说现在自动驾驶圈啥最火,多模态大模型绝对算一个。
但这些模型大多靠文字“唠嗑”做决策,好比你让导航用文字描述路口转弯,绕来绕去说不定就迷糊了。
2025年9月30日,FSDrive整了个大活:提出“时空视觉CoT”,让模型直接“看图片想事儿”,把未来路况和障碍物标在一张图上当“草稿纸”,这波操作直接戳中了行业痛点。
传统自动驾驶模型就像个死记硬背的学生,靠文字规则做题。
FSDrive不一样,它干了三件事,让模型秒变“视觉达人”。
第一招,用图代替文字当“翻译”。以前模型得把图像翻译成文字再推理,好比看电影先转成字幕,信息早丢了大半。
FSDrive直接让模型对着未来路况图琢磨:红色车道线标可行区域,3D框圈出障碍物,一眼看明白该往哪走。
这就像导航直接给你看实时街景AR箭头,比文字指路靠谱多了。
第二招,花小钱办大事。别家模型想生成图像,得大改架构猛砸数据,FSDrive偏不。
它就像给模型扩了本“图文词典”,把图像像素编成特殊“单词”塞进词表,模型照着自回归“造句”就能生成图。
最绝的是数据用量:只需同类方法的0.3%,搁以前这叫“空手套白狼”,放现在就是“性价比之王”。
第三招,按“套路”出牌。
FSDrive教模型“由简到难”画未来图:先画车道线定规矩,再标动态物体定节奏,最后补全细节。
就像学画画先练线条再上色,这样生成的图既符合物理规则,又不会出现“车穿墙”的离谱场景。
光吹不练假把式,FSDrive拉到实测场就露了真本事。
和Doe-1模型比,它在不依赖自车状态数据时,轨迹规划的L2误差低了近30%,碰撞率从0.21跌到0.19:相当于100次驾驶少撞两次车。
和UniAD比更夸张,碰撞率直接砍了25%,这要是放现实里,怕是能让保险公司偷着乐。
生成未来帧的质量也不含糊。FSDrive的FID值10.1,比扩散模型GEM还低,关键是生成速度快,不像有些模型磨磨蹭蹭半天憋不出图。
场景理解能力也没落下,DriveLM GVQA得分0.57,比OminiDrive还高,问它路口咋走、障碍在哪,对答如流。
最有意思的是它的“纠错”能力。
要是输入错误导航指令,比如“在禁止左转路口硬转”,FSDrive能盯着摄像头和未来预测图自己琢磨:“不对劲啊这路”,然后默默修正路线。
这相当于副驾多了个会看路的智能助手,比人类司机反应还快。
FSDrive这波操作,把自动驾驶从“文字游戏”拉到了“视觉推理”赛道。
不用大改模型架构,靠扩词表和调参数就激活了图像能力,对车企来说简直是“省钱福音”,毕竟训练数据和算力成本能压下来,技术落地就更快了。
但也别高兴太早,现在FSDrive主要生成前视图像,环视预测还没安排上,复杂路口场景可能会“看漏”。
而且技术落地得考虑安全和隐私,比如图像数据会不会泄露路况信息,这些都得慢慢打磨。
不过话说回来,从依赖文字符号到直接“看图思考”,这步子迈得够大。
以后自动驾驶模型说不定真能像人一样“眼看六路”,靠视觉推理做决策。
到那时候,开车说不定比现在还省心,当然,前提是技术得把所有角落都“看明白”。
总之,FSDrive给行业指了条明路:视觉推理可能才是自动驾驶的“正确打开方式”。
至于这条路能走多远,那就得看后续技术能不能把“看图说话”玩得更溜了。
来源:萌萌思密达