摘要:最近自动驾驶圈出了个实打实的硬新闻,华中科大跟小米汽车联手搞出的Genesis框架,直接登上了AI顶会NeurIPS。
最近自动驾驶圈出了个实打实的硬新闻,华中科大跟小米汽车联手搞出的Genesis框架,直接登上了AI顶会NeurIPS。
这框架最牛的地方在哪?不用OCC引导就能搞图像和点云的多模态生成,算是给行业开了个新范式。
可能有人会问,不就是个生成框架吗?有啥特别的?懂行的都知道,现在自动驾驶往高阶走,最缺的就是高质量的场景数据集。
合成数据因为能编辑、泛用性强,早成了香饽饽。
但以前的方案要么只搞单模态,要么就得用OCC标签,那标签成本高得吓人,普通企业根本扛不住。
Genesis刚好把这两个痛点都解决了,你说这事儿值不值得说道说道?
Genesis能出圈,核心还是它那套架构设计,跟别家比确实有点不一样。
它走的是两阶段路线,第一步先拿透视图的布局和场景描述当基础,用DiT扩散模型去学3D-VAE编码的环视图特征;第二步再把这些特征转成鸟瞰图视角,接着学2D自编码器编码的点云特征。
整个过程不用占用网格或者体素当中间件,省了不少麻烦事。
本来想,光有架构怕是不够,语义引导这块要是跟不上,生成的东西还是会跑偏。
但后来发现,他们专门搞了个DataCrafter模块,跟个“数据管家”似的。
这模块有两个本事,一是筛选数据,用预训练的VLM模型挑高质量的训练片段,模糊、曝光异常的直接pass;二是提语义,能挖多视图、场景级甚至实例级的细粒度信息,不像以前的模型就靠粗略标签糊弄。
如此看来,Genesis生成的东西又准又可控,这模块功不可没。
对了,这框架的论文和代码都公开了,论文链接能直接查到,Github上搜xiaomi-research/genesis也能找到源码。
说实话,这种公开透明的做法挺圈粉的,同行想研究或者企业想试用,都不用绕弯子。
Genesis不光架构牛,具体干活的两个模型也挺有门道,一个管视频生成,一个管激光雷达点云生成,俩“兄弟”配合得还挺默契。
先说说管视频的模型。
以前自动驾驶场景生成视频,总出个毛病,行人糊得看不清,搞不清是算法不行还是数据不够。
Genesis倒是机灵,直接用YOLOv8x-Pose检测行人姿态,再投到各个视角,这一下行人细节就清晰多了。
具体操作也不复杂,先画好车道线和3D框的布局,转成2D语义控制图,再通过Control-DiT把这些信息揉进每个去噪步骤里。
最后用3D-VAE把多帧BEV图压缩成隐空间特征,保证生成的视频既真实又不跑偏。
再看管激光雷达的模型。
激光雷达生成最讲究几何精确,Genesis先是把稀疏点云弄成BEV网格,用SwinTransformer压成特征,再用解码器和NeRF重建点云。
怕有误差,还加了空间跳跃算法,最后过滤掉噪声点。
最关键的是,它还会拿视频分支的RGB特征当参考,通过LSS算法转成BEV特征,保证点云和图像能对上。
毫无疑问,这种跨模态的配合,比单打独斗靠谱多了。
说得再好,没实测数据支撑都是空谈。
Genesis在nuScenes数据集上的表现,确实没让人失望。
nuScenes数据集不用多介绍,自动驾驶领域的“金标准”,覆盖的场景又全又真实。
视频生成这块,无首帧的时候FVD是83.10,FID14.90,比DriveDreamer-2强不少;有首帧的时候FVD降到16.95,FID4.24,跟MiLA比也不落下风。
激光雷达更厉害,1秒预测的时候Chamfer距离是0.611,比之前最好的HERMES还好;3秒的时候优势更大。
下游任务也顶,在BEVFormer3D目标检测里,平均交并比和平均精度均值都是第一;在BEVFusion里,指标也涨了不少,尤其是图像和激光雷达一起用的时候,涨得最多。
Genesis对行业最大的贡献,可能还是降成本。
以前像UniScene这种多模态方案,得用OCC标签,那标签标注成本高得吓人,普通企业根本用不起。
Genesis不用OCC,直接把门槛拉低了。
而且它能生成极端场景的数据,比如暴雨、暴雪天,这些场景的真实数据少得可怜,有了Genesis就能补上来。
如此看来,以后自动驾驶算法训练的成本能降,数据多样性也能提上来,算是给行业帮了个大忙。
当然了,我也在想,以后Genesis能不能再优化下生成速度?毕竟实际应用里,生成速度慢了也不行。
但就目前来看,能解决无OCC依赖和多模态一致性这两个痛点,已经是个大突破了。
相信后续再迭代迭代,能发挥更大的作用。
来源:世间一分钟一点号