CVPR25 Highlight | 华科、道通智能、英特尔开源双目深度估计大模型

B站影视 欧美电影 2025-04-10 01:25 1

摘要:本文介绍了MonSter,一种用于立体深度估计的基础模型,旨在利用单目深度估计和立体匹配的互补优势,解决现有立体匹配方法难以处理匹配线索有限的不适定区域,如遮挡、无纹理、细结构、反光等区域,在提升精度的同时增强泛化性能。通过双分支结构,循环迭代优化单目深度与双

本文介绍了MonSter,一种用于立体深度估计的基础模型,旨在利用单目深度估计和立体匹配的互补优势,解决现有立体匹配方法难以处理匹配线索有限的不适定区域,如遮挡、无纹理、细结构、反光等区域,在提升精度的同时增强泛化性能。通过双分支结构,循环迭代优化单目深度与双目深度,并设计了“单目引导增强(MGR)”和“立体引导对齐(SGA)”的模块,充分结合两分支深度的优势。实验结果表明,MonSter在五个最常用的benchmark上均达到SOTA——Sceneflow、KITTI 2012、KITTI 2015、Middlebury和ETH3D。在泛化性方面,MonSter仅仅使用少量公开训练集就达到最优水准。

相关论文 MonSter: Marry Monodepth to Stereo Unleashes Power 获得 CVPR 2025 Highlight,代码已开源。

论文地址:https://arxiv.org/abs/2501.08643

项目代码:https://github.com/Junda24/MonSter

目前 MonSter在 ETH3D, KITTI 2012, KITTI 2015等多个排行榜位列第一/并列第一。

KITTI 2015:

KITTI 2012:

ETH3D:

立体匹配从经过校正的立体图像中估计视差,然后可转换为绝对深度。它是自动驾驶、机器人导航和三维重建等许多应用的核心。基于深度学习的方法在标准基准测试上表现出了令人瞩目的性能。这些方法大致可分为基于代价滤波的方法和基于迭代优化的方法,但本质上都是从相似性匹配中推导出视差,基于两幅图像中存在可见匹配关系的假设。这就给匹配线索有限的病态区域(如遮挡、无纹理区域、重复/细长结构以及像素表示较低的远处物体)中带来了挑战。

与立体匹配不同,单目深度估计直接从单幅图像中恢复三维信息,因此不会遇到误匹配的挑战。尽管单目深度能够为立体匹配提供结构信息,但其深度不可避免的具有尺度和偏移模糊性,直接将这种相对深度和立体匹配的绝对深度进行融合无法充分结合二者的优势。

如图所示,单目深度模型的预测与真实值存在很大差异。即使在全局尺度和偏移对齐之后,仍然存在大量误差,这使得单目深度和立体视差的像素级融合变得复杂。基于这些见解,我们提出了MonSter,这是一种将立体匹配分解为单目深度估计和逐像素尺度-偏移恢复的新方法,它充分结合了单目和立体算法的优点,克服了缺乏匹配线索的局限性。主要贡献如下:

我们提出了一种新颖的立体匹配方法MonSter,充分利用像素级的单目深度先验,显著提高了立体匹配在病态区域和精细结构中的深度感知性能。MonSter在五个广泛使用的排行榜上排名第一:KITTI 2012、KITTI 201、Scene Flow、Middlebury和ETH3D,将当前SOTA提高了多达49.5%。与SOTA方法相比,MonSter在不同数据集上始终如一地实现了最佳的零样本泛化。仅在合成数据上训练的MonSter在各种真实世界数据集上均表现出色。

总览:如图所示,MonSter为单目深度估计和立体匹配分别构建了单独的分支,并通过立体引导对齐(SGA)和单目引导增强(MGR)模块自适应地融合。

双支路架构:MonSter由两个主要支路组成:单目深度支路和立体匹配支路。单目支路负责从单幅图像中提取深度信息,而立体支路则从立体图像对中估计视差。互相强化:这两个支路通过名为“单目引导增强(MGR)”和“立体引导对齐(SGA)”的模块进行多次迭代,增强彼此的性能。初始的单目深度和立体视差会被互相使用,从而不断优化。自适应选择和引导:在每次迭代中,根据置信度引导选择可靠的立体特征,以便更新每个像素的单目视差。这一过程能够有效减小因光照变化、纹理缺失等导致的错误匹配。MGR模块则利用优化后的单目深度来进一步改善立体视差。尺度、偏移优化:在执行互相改进之前,首先需要对单目深度进行全局的尺度和偏移对齐,以将其转换为与立体视差粗略对齐的视差图。这一对齐过程通过最小化预测的单目深度与已有立体视差之间的误差来实现。但直接将单目视差单向融合到立体匹配中仍然会受到尺度-偏移模糊性的影响,这通常会在复杂区域(如倾斜或曲面)中引入噪声。因此使用SGA模块有效地解决了这一问题,确保了MonSter的鲁棒性条件引导卷积GRU:在每一轮迭代,使用条件引导卷积GRU来处理不同分支的输入及其置信度,实现对未匹配区域的细致修正。这样能保证单目深度为立体匹配提供稳定可靠的指导。

1.Benchmark performance

我们在五个benchmark上均达到SOTA,均显著提升。

2.病态区域等挑战场景表现

我们在KITTI 2012的反光区域上排行第一,且相比SOTA在Out-3(All)和Out-4(All)指标上大幅提升58.32%和65.02%。同时,在细小边缘区域,我们相比我们的基线方法提升了24.39%。这证明了我们结合单目深度的有效性,大大提升了立体匹配在病态区域的性能。

3.零样本泛化性

仅仅使用Sceneflow进行训练,我们的泛化性就已大幅超越SOTA方案。有趣的是,仅仅只需要增加CREStereo和TartanAir进训练集,我们的泛化性就能显著增强,在ETH3D上相比baseline方案提升49.16%。

4.消融实验

在消融实验中,我们系统验证了模型各关键组件的有效性,通过比较MGR、SGA模块和普通卷积融合,证明MGR、SGA模块的有效性。这证明仅仅是简单的普通卷积融合,并不能充分发挥二支路信息互补的优势。

我们还证明了我们方法的高效性,当使用我们的框架时,仅需要4次迭代就可以达到相比baseline更高的精度,推理速度更快。同时我们还通过替换单目深度估计模型,证明了我们方法的通用性,相比baseline均具有显著提升。

5.可视化结果

Zero-Shot performance in the wild

Zero-Shot performance in KITTI

6.Gif

driving

kitti_4

8.展望

我们致力于提供一个更轻量化版本的MonSter,并且由于MonSter的强泛化性(我们仅仅使用少量公开训练集),我们将提供一个更多数据集混合训练的版本供给社区使用,除此以外,MVS的版本即将release!欢迎关注!

该论文来自于华中科技大学、道通智能以及英特尔。其中论文一作程俊达为华中科技大学在读博士,此前曾在大疆、英特尔和道通智能实习。研究方向为3D 视觉。

来源:极市平台

相关推荐