摘要:北京大学陈宝权教授团队联合港大等开发的 SLAM3R系统取得突破:首次仅用普通手机RGB视频,就能实时(20+FPS)生成高质量、高密度3D场景模型。 它颠覆传统流程,通过神经网络直接端到端预测3D点云,无需求解复杂相机参数。核心是“图像到点”和“本地到世界”
【导读】
北京大学陈宝权教授团队联合港大等开发的 SLAM3R系统取得突破:首次仅用普通手机RGB视频,就能实时(20+FPS)生成高质量、高密度3D场景模型。 它颠覆传统流程,通过神经网络直接端到端预测3D点云,无需求解复杂相机参数。核心是“图像到点”和“本地到世界”双模块,利用滑动窗口处理视频片段并融合局部点云为全局模型。实验证明其精度和完整性超越现有实时方法,为AR、机器人等应用打开大门。>>更多资讯可加入CV技术群获取了解哦~
本文介绍了 SLAM3R,这是一种利用 RGB 视频进行实时、高质量、高密度三维重建的新型高效系统。SLAM3R 通过前馈神经网络无缝集成了局部三维重建和全局坐标注册,提供了端到端的解决方案。系统首先利用滑动窗口机制将输入视频转换为重叠片段。与基于姿态优化的传统方法不同,SLAM3R 直接从每个窗口中的 RGB 图像回归三维点阵图,并逐步对齐和变形这些局部点阵图,以创建全局一致的场景重建--所有这一切都无需明确求解任何摄像机参数。跨数据集的实验一致表明,SLAM3R 实现了最先进的重构精度和完整性,同时保持了 20+ FPS 的实时性能。
论文地址:
代码地址:
核心痛点
传统三维重建方法(如SfM+MVS)步骤繁琐、依赖相机参数求解,速度慢,难以实时。现有实时密集SLAM系统要么重建质量差(噪声大、不完整),要么严重依赖深度传感器(如RGB-D相机),要么速度不足(远低于实时帧率)。近期端到端方法如DUSt3R 虽能从图像对实时重建,但扩展到视频(多视图) 需要全局优化,效率骤降;其增量扩展版本 Spann3R 虽快,但累积漂移严重,质量下降。SLAM3R的创新方案
图像到点 (I2P): 将输入视频分割成重叠的短片段(滑动窗口)。该模块一次性处理窗口内的多帧图像(受DUSt3R启发但更高效),直接回归预测该局部窗口的密集三维点云图。
本地到世界 (L2W): 将不同窗口预测的局部点云图,逐步对齐、融合到一个统一的全局坐标系中。这个过程也无需相机位姿信息,直接操作点云实现全局一致性。
实时高性能: 整个系统运行效率极高,能在20+ FPS 的帧率下处理手机视频流,真正实现了实时性。SLAM3R架构
SLAM3R主要由两个部分组成:Image-to-Points(I2P)网络和 Local-to-World(L2W)网络。I2P 网络负责从视频片段中恢复局部坐标系下的稠密点云,而 L2W 网络则将局部重建结果逐步注册到全局场景坐标系中。在整个点云重建过程中,系统直接使用网络在统一坐标系中预测3D点云,无需显式计算相机参数和三角化场景点云,从而避免了传统重建方法中迭代优化等耗时的操作。
窗口内的多视角三维重建(I2P网络)。在每个窗口内,选择一帧作为关键帧来建立参考系,其余帧(称为支持帧)用于辅助该关键帧的重建。我们基于 DUSt3R 解码器设计了关键帧解码器,通过引入简单的最大值池化操作来聚合多个支持帧的交叉注意力特征,从而有效整合多视角信息。这一改进在保持模型结构简洁的同时具有多重优势:
1)继承 DUSt3R 预训练权重,从而保证预测质量;
2)未引入过多计算开销,保持实时性能;
3)支持任意数量的图像输入,具有良好的扩展性。
窗口间的增量式点云注册(L2W网络)。窗口间的注册与窗口内的重建相似,不同之处在于前者使用多帧重建结果作为参考系,用以辅助注册新的关键帧。因此,L2W 采用了 I2P 的整体架构。在此基础上,引入简单的坐标编码器来处理点云输入,并通过逐层特征叠加的方式注入解码器。这种机制让模型在解码过程中持续接收几何和坐标系的双重引导,既确保了信息传递的充分性,又避免了复杂特征交互设计带来的计算负担。这一设计巧妙地继承了 DUSt3R 的坐标转换能力,并将其转化为可控的注册过程。
场景帧检索模块。我们提出了一种前馈检索机制,用于确定 L2W 网络在注册新关键帧时所使用的参考帧。当 SLAM3R 系统需要调用 L2W 融合新窗口(关键帧)时,系统会先通过场景帧检索模块从已注册窗口中检索 K 个最优参考帧,再将这些参考帧与新帧一同输入 L2W 模型进行坐标系转换。这种设计既保持了全局一致性,又有效缓解了传统 SLAM 系统中的累积误差问题。检索模块通过在 I2P 网络中附加额外的轻量级 MLP 实现,完成前馈式快速检索。
大规模训练。SLAM3R 系统的各个模块均采用前馈式神经网络实现,最大程度地复用了 DUSt3R 大规模预训练的权重,并在大规模视频数据集上进行训练。具体来说,我们收集了约85万个来自 ScanNet++、Aria Synthetic Environments 和CO3D-v2数据集的视频片段,使用8张4090D显卡进行训练。训练完成后,该系统可在单张4090D显卡上实现实时推理。
实验
比较
评估指标按照 NICER-SLAM 和 Spann3R,我们使用地面实况深度和摄像机参数将像素反向投影到世界,从而为每个测试序列建立地面实况点云模型。重建的点云使用 Umeyama 和ICP 算法与地面实况对齐。我们通过精度和完整性指标来量化重建质量。为了证明计算效率,我们在单个NVIDIA 4090D GPU上重新创建了每秒帧数(FPS)。我们还使用绝对轨迹误差(ATE-RMSE)来评估相机姿势。7个场景数据集的重建结果。场景重建质量的数值结果如表1所示。
表1列出了场景重建质量的数值结果。按照 Spann3R的设置,我们在每个测试序列中均匀抽取二十分之一的帧作为输入视频。每个视频都被视为一个单独的场景。我们使用两种设置来评估 SLAM3R:整合所有输入帧预测的完整点阵图以创建重构结果(用SLAM3R-NoConf表示),以及在创建重构结果(SLAM3R)之前用3置信度阈值过滤点阵图。我们将我们的方法与基于优化的重建 DUSt3R 、基于三角测量的 MASt3R 和在线增量重建 Spann3R 进行了比较。在保持实时性的同时,我们的方法在准确性和完整性方面都优于所有基线方法。如Office-09 场景所示(图4顶部一行),我们的方法与 Spann3R相比漂移更小。
Replica数据集上的重建结果除了7个场景数据集中提到的基线之外,我们还在 Replica数据集上比较了基于SLAM的重建方法 NICER-SLAM、DROID-SLAM、DIM- SLAM 和 GO-SLAM。全场景重建的数值结果见表 2。由于内存紧张,DUSt3R和 MASt3R只处理了二十分之一的帧进行重建。如表所示,我们的方法在 FPS 大于 1 的情况下超过了所有基线方法。值得注意的是,在没有任何优化程序的情况下,我们的方法达到了与 NICER-SLAM和DUSt3R等基于优化的方法相当的重建质量。办公室 2的示例(图4底行)也说明了我们重建结果的全局一致性。
在 7 个场景和复制中进行摄像机姿态估计。我们的方法采用了一种新的模式,即在不明确求解摄像机参数的情况下重建端到端的3D点。根据DUSt3R,我们还利用OpenCV中的PnP-RANSAC求解器和每帧的地面真实摄像机本征,从预测的场景点推导出摄像机姿势。结果见表 3。我们可以发现,摄像机姿态和场景重建结果并非完全正相关。姿态和重建误差之间的这种差异表明,如果不首先获得精确的摄像机姿态,就有可能实现有效的端到端三维重建,而且前景广阔。
分析
I2P 模型的有效性为了突出多视图 I2P 模型相对于原始双视图 DUSt3R 的优势,我们评估了不同支持视图数量的关键帧的重建质量。我们在 Replica 数据集上进行了实验,使用不同大小的滑动窗口对输入视图进行采样,并计算关键帧的重建精度和完整性。结果见第 4 章。随着支持视图数量的增加,我们的方法逐步提高了重建质量。值得注意的是,在窗口大小超过 11 个之前,我们方法的效率一直保持稳定,这证明了我们并行设计的有效性。不过,随着视图数量的增加,结果也显示出收益的减少,我们将在补充材料中详细说明。I2P 重建的直观结果见图 1。
L2W 模型的优势通过对 Replica 数据集进行消融研究,评估了 L2W 模型的有效性。首先使用 I2P 模型生成窗口大小为 11 的每窗口重建。然后使用不同的方法将局部点对齐到统一的协同帧: 表 5. 使用不同点对齐方法和场景帧选择策略的重建结果。报告的 FPS 仅包括对齐操作的开销。
我们使用了 DUSt3R (I2P-GA)、Umeyama 和 ICP 等传统方法 (I2P+UI),以及我们的 L2W 模型 (I2P+L2W+Re)。为了保持一致,我们将全局优化的视图数设为 10,这与其他方法中用于对齐新帧的视图数相同。表 5 中的结果表明,与其他方法相比,我们的完整方法实现了更高的配准精度和计算效率。
检索模块分析我们提出了一种轻量级检索模块,可从存储库中选择历史场景帧。这种方法有效地实现了隐式重定位。我们将我们的检索方法与选择 10 个最接近的前帧的基线方法(名为 I2P+L2W)进行了比较。表 5 中的结果表明,我们的检索策略显著提高了性能,证明了它的有效性。野外场景重建。我们在各种未见数据集上测试了我们的方法,发现 SLAM3R 具有很强的泛化能力。图 5 显示了我们在 Tanks and Temples、BlendedMVS、Map-free Reloc、LLFF和ETH3D数据集以及我们捕获的野外视频上的重建结果。这些结果表明,我们的方法在不同尺度和场景下都有可靠的表现。我们还在补充材料中提供了对这些数据集中的采样场景的其他数值结果。
结论
本文提出SLAM3R——一个基于RGB视频实现实时高质量稠密三维重建的创新系统。其采用双层级神经网络框架,通过端到端前馈流程完成三维重建,无需显式求解相机参数。实验证明其具备领先的重建质量与实时性(20+ FPS)。
由于未预测相机参数,我们无法进行全局光束法平差;此外,从场景点云预测推导的位姿仍逊色于专注相机定位的SLAM系统。解决这些局限将是未来研究方向。
来源:小码科普君