摘要:想象一下,让AI根据一段文字描述和几张设计草图,就能生成一部逼真的公路电影,不仅有高清画面,还有精确的3D点云场景。
想象一下,让AI根据一段文字描述和几张设计草图,就能生成一部逼真的公路电影,不仅有高清画面,还有精确的3D点云场景。
3D点云场景 资料图
这不再是科幻片桥段,而是华中科技大学与小米汽车联合研发的Genesis框架正在实现的奇迹。
在自动驾驶的训练中,数据就像燃料。
但真实世界的数据采集成本高昂,且难以覆盖所有极端场景。
这就好比教新手司机不能只让他在空停车场转圈,还需要暴雨、夜路、拥堵等复杂路况。
传统方法像是分别请了摄影师和3D建模师,各干各的,最终合成的画面总对不上号。
Genesis的创新在于打造了一个全能制片人系统。
它不需要昂贵的3D占位标签(OCC)作指导,只需场景描述和基础布局(车道线和3D框),就能同步生成环视视频和激光雷达点云。
这好比一位导演同时指挥真人实拍和特效制作,确保每个机位、每个角度都完美匹配。
其中的秘密武器DataCrafter,就像一位经验丰富的剧本总监。
它能自动筛选高质量训练素材,并为每个场景生成详尽的拍摄脚本,从整体氛围到每个行人姿态的细节描述。
这位AI编剧甚至会用YOLOv8x-Pose精准捕捉行人动作,投影到各个视角,让生成的动态场景更加真实自然。
Genesis采用两阶段工作流程,如同电影制作先拍实景后做特效。
第一阶段:多机位实拍
系统首先化身成一位擅长多机位调度的导演。
它基于透视图的布局和场景描述,利用先进的DiT扩散模型,在3D变分自编码器压缩的环视特征空间里学习。
简单说,就是AI通过研究海量驾驶片段,学会了如何用多个虚拟摄像机同时生成连贯的环视视频。
特别值得一提的是,团队专门解决了行人生成的老大难问题。
传统方法生成的行人常常模糊或扭曲,而Genesis通过精准的姿态投影,让每个虚拟行人都拥有自然的动作和形态。
第二阶段:上帝视角建模
接下来,系统切换成“城市规划师”模式,将所有视角的特征转换到鸟瞰图空间。
结合场景描述和布局条件,它开始生成对应的激光雷达点云。
这就像在电脑里用点云搭建出一个精确的3D世界。
更巧妙的是,系统会将第一阶段生成的RGB图像特征转换为BEV特征,作为点云生成的条件输入。
这就确保了摄像头看到的和激光雷达感知的完全一致,避免了一个说前面有车、一个说空无一人的尴尬场面。
实验结果证明,这套系统确实身手不凡。
在视频生成方面,无论是否有首帧条件,Genesis在FVD(视频质量评估)和FID(图像真实性评估)指标上都表现出色,超越了DriveDreamer-2等前辈,与当前最优的MiLA媲美。
特别是在保持时间一致性和结构保真度上,它的表现令人印象深刻。
在激光雷达生成上,成果更加显著。
在1秒预测时,其Chamfer距离比之前的最佳记录提升了21%;在3秒预测时,优势扩大到45%的提升幅度。
这意味着生成的3D点云不仅更精确,在时间维度上也更加稳定。
生成的数据到底有没有用?最关键还要看在实际任务中的表现。
在BEVFormer 3D目标检测任务中,使用Genesis生成数据训练的系统交出了38.01的平均交并比和27.90的平均精度均值,成绩亮眼。
更令人信服的是在BEVFusion 3D检测框架上的实验:在所有设置中,Genesis生成的数据都带来了稳定提升,其中多模态联合生成实现了最高增益。
这证明摄像头和激光雷达的双剑合璧确实产生了1+1>2的效果。
Genesis的出现,标志着自动驾驶数据生成进入了新的阶段。
它不再依赖昂贵的中间标签,却能生成更加真实、一致的多模态数据。
这就像为自动驾驶研发打开了一扇新的大门,不仅可以利用AI生成训练数据,还能创造出各种极端场景来测试系统极限。
随着这项技术的成熟,未来我们或许能看到自动驾驶系统在投入真实路测前,就已经在虚拟世界里经历了数百万公里的魔鬼训练。
而这,正是像Genesis这样的多模态生成框架正在为我们铺就的智能驾驶之路。
来源:知识分子李一