摘要:这篇文章提出了 6DOPE-GS,一种利用高斯 splatting 技术实现单 RGB-D 相机在线 6D 对象姿态估计与跟踪的新方法。高效准确的对象姿态估计是许多现代视觉系统应用的关键,但无模型方法受高计算负载阻碍。6DOPE-GS 借助高斯 splatti
0.这篇文章干了啥?
这篇文章提出了 6DOPE-GS,一种利用高斯 splatting 技术实现单 RGB-D 相机在线 6D 对象姿态估计与跟踪的新方法。高效准确的对象姿态估计是许多现代视觉系统应用的关键,但无模型方法受高计算负载阻碍。6DOPE-GS 借助高斯 splatting 的快速可微渲染能力,同时优化 6D 对象姿态和 3D 对象重建。为实现实时跟踪的效率和准确性,该方法采用增量 2D 高斯 splatting 与智能动态关键帧选择程序,以实现高空间对象覆盖并防止错误姿态更新;还提出基于不透明度统计的修剪机制,用于自适应高斯密度控制,确保训练稳定性和效率。在 HO3D 和 YCBInEOAT 数据集上的评估表明,6DOPE-GS 在无模型同时进行 6D 姿态跟踪和重建方面与最先进的基线性能相当,且速度提升 5 倍,还适用于现实场景中的实时动态对象跟踪和重建。文章的贡献包括有效利用 2D 高斯 splatting 进行高效准确的无模型 6D 对象姿态估计和重建;利用高斯 splatting 的可微渲染联合优化基于 2D 高斯 splatting 的“高斯对象场”和以对象为中心的关键帧姿态图;提出基于关键帧空间覆盖的动态关键帧选择方法和基于重建置信度的过滤机制;引入基于不透明度百分位数的自适应高斯密度控制机制。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
作者:Yufeng Jin,Vignesh Prasad,Snehal Jauhri 等
作者机构:Computer Science Department, Technische Universit¨at Darmstadt, Germany;Honda Research Institute Europe GmbH, Offenbach, Germany;Hessian.AI, Darmstadt, Germany
论文链接:arxiv.org/pdf/2412.0154
2. 摘要
高效且准确的物体姿态估计是许多应用(如增强现实、自动驾驶和机器人技术)中现代视觉系统的重要组成部分。虽然基于模型的 6D 物体姿态估计研究已经取得了有前景的成果,但无模型方法在实时 RGB-D 视频流中渲染和推断任意物体一致姿态时,会受到高计算负载的阻碍。为解决这一问题,我们提出了 6DOPE-GS,这是一种通过有效利用高斯 splatting 技术的进展,使用单台 RGB-D 相机进行在线 6D 物体姿态估计和跟踪的新方法。得益于高斯 splatting 的快速可微渲染能力,6DOPE-GS 可以同时优化 6D 物体姿态和 3D 物体重建。为了实现实时跟踪所需的效率和准确性,我们的方法采用增量式 2D 高斯 splatting 技术,并结合智能动态关键帧选择程序,以实现高空间物体覆盖并防止错误的姿态更新。我们还提出了一种基于不透明度统计的剪枝机制,用于自适应高斯密度控制,以确保训练的稳定性和效率。我们在 HO3D 和 YCBInEOAT 数据集上对我们的方法进行了评估,结果表明 6DOPE-GS 在无模型的同时进行 6D 姿态跟踪和重建方面,与最先进的基线方法性能相当,同时速度提高了 5 倍。我们还展示了该方法在现实场景中对动态物体进行实时跟踪和重建的适用性。
3. 效果展示
我们的方法6DOPE-GS在HO3D数据集的视频序列上进行测试的定性结果,这些序列分别是AP13、MPM14、SB13和SM1(从上到下)。左:我们的方法能够高精度地跟踪物体的6D姿态随时间的变化。右:6DOPE-GS在重建物体的外观(第1行和第3行)和表面几何形状(第2行和第4行)方面随时间变化是有效的。第一张图显示了序列开始时的初始重建,第二张图显示了随时间推移的细化重建。
4. 主要贡献
我们提出了一种新方法,该方法有效利用二维高斯溅射技术,实现高效、准确的无模型六维物体姿态估计和重建。
我们利用高斯溅射计算高效的可微渲染特性,联合优化基于二维高斯溅射的“高斯物体场”和观察到的关键帧的以物体为中心的姿态图,从而提供准确、精确的关键帧姿态更新。
我们提出了一种基于关键帧集合空间覆盖的动态关键帧选择方法,以及一种基于重建置信度的过滤机制,以排除姿态估计错误的关键帧。
我们引入了一种基于不透明度百分位数的新型自适应高斯密度控制机制,以过滤掉“不重要”的高斯,从而提高训练稳定性和计算效率。
5. 基本原理是啥?
基于高斯 splatting 的实时 6D 物体姿态估计
6DOPE-GS 方法利用 2D 高斯 splatting 的表示能力进行实时 6D 物体姿态估计。通过利用高斯 splatting 快速的可微渲染能力,该方法能同时优化 6D 物体姿态和 3D 物体重建。
粗姿态初始化
为实现任意物体的实时 6D 姿态跟踪和重建,首先使用 SAM2 对第一帧中的物体进行分割,以确保整个视频序列中物体的精确分割。然后应用 LoFTR 建立点对应关系,通过非线性最小二乘优化和 RANSAC 计算 RGB-D 帧对之间的粗姿态估计。根据匹配特征的密度初始化一组关键帧。
高斯物体场构建
构建基于 2D 高斯 splatting 的“高斯物体场”来捕捉物体的视觉和几何属性,实现精确的表面几何重建。与 3D 高斯 splatting 主要强调渲染逼真视觉效果不同,2D 高斯 splatting 通过将每个高斯转换为盘状曲面元素,结合动态关键帧选择和不透明度四分位数修剪,能精确建模渲染表面,提供可靠的深度估计。在优化 2D 高斯参数的同时,通过 2D 高斯在每个关键帧图像平面上的投影操作传播损失梯度,联合优化关键帧姿态。
动态关键帧选择
为了获得可靠的高斯物体场,避免姿态初始化误差导致高斯 splatting 优化发散,引入动态关键帧选择方法。先使用二十面体的顶点和面中心建立一系列“锚点”,将初始粗关键帧姿态估计围绕这些锚点聚类,选择每个锚点聚类中物体掩码最大的关键帧。在联合优化 2D 高斯和所选关键帧姿态时,根据 2D 高斯优化过程中的重建误差去除具有错误姿态估计的离群关键帧,通过估计重建损失的中位数绝对偏差(MAD)来识别和去除离群视图。
基于不透明度百分位数的自适应密度控制
在高斯物体场优化过程中,进行周期性的修剪和致密化以维持高斯粒子的数量和紧凑性。采用基于不透明度百分位数的修剪策略,在固定数量的优化步骤后,修剪不透明度处于底部 5% 的高斯粒子,直到高斯粒子的 95% 不透明度超过给定阈值。当位置梯度超过预定义阈值时,触发高斯粒子的分裂和克隆。优化收敛后,暂时冻结 2D 高斯,利用 RGB、深度和法线的重建结果细化所有关键帧的姿态。
在线姿态图优化
当从高斯物体场获得关键帧的更新姿态后,建立全局以物体为中心的坐标系和关键帧内存池。根据新帧的视锥体从内存池选择一组重叠帧进行图优化,通过生成点-法线图并计算法线与新帧相机射线方向的点积评估可见性,选择可见性比率超过定义阈值的帧。选择最佳关键帧与新帧构建姿态图,通过最小化密集像素级重投影误差优化姿态图,持续细化每个后续时间步的物体姿态。
6. 实验结果
性能对比
YCBInEOAT 数据集:6DOPE-GS 在 ADD-S 和 ADD 指标上分别达到 93.79% 和 87.82%,重建的 Chamfer 距离为 0.15cm,平均每帧处理时间为 0.22 秒,超越了此前基于 SLAM 的方法和 BundleTrack,相比 MonoGS 因几何和纹理监督有限导致的性能不佳,6DOPE-GS 表现更优。
HO3D 数据集:6DOPE-GS 在 ADD-S 和 ADD 指标上分别达到 95.07% 和 84.33%,重建的 Chamfer 距离为 0.41cm,平均每帧处理时间为 0.24 秒。在复杂的手部-对象交互和快速运动变化场景中,多数基线方法因累积误差难以准确跟踪,而 6DOPE-GS 的位姿图优化和关键帧选择增强了粗位姿初始化和位姿跟踪效率,实现了亚厘米级的卓越重建。不过在更具挑战性的 HO3D 数据集绝对得分上,6DOPE-GS 的 ADD 对称得分虽优于 BundleSDF,但整体仍落后,可能是由于 HO3D 中的遮挡减少了优化高斯粒子和细化位姿估计所需的监督信号。
时间效率
在 HO3D 数据集上对比不同方法速度与性能的权衡,BundleSDF 虽位姿跟踪精度高,但计算成本大,平均处理时间达 2.1 秒。BundleSDF-async(线程间不同步)比 BundleSDF-lite(减少神经对象场优化步骤)性能更好,凸显了位姿图优化对准确关键帧位姿的依赖。而 6DOPE-GS 因高斯对象场优化快速收敛,实现了速度与准确性的平衡,比 BundleSDF 快约 5 倍。
消融实验
无动态关键帧选择(Ours w/o KF selection):训练时保留不准确的位姿估计,导致重建损失出现残差误差,阻碍位姿优化,性能下降。
无剪枝(Ours w/o Pruning):采用普通自适应密度控制,移除低于预定义阈值的所有高斯,使高斯数量突变,导致渲染波动大,训练收敛慢。
3DGS 表示(Ours (3DGS)):3DGS 在位姿估计和重建中的位姿准确性和重建质量不如 2DGS,原因是 3DGS 缺乏对法线和深度的正则化,使高斯偏离对象表面,降低重建质量。
实时结果
使用 ZED 2 相机,以 1080p 分辨率、30 FPS 帧率捕获视频,SAM2 系统运行频率为 28 FPS。可视化模式下位姿跟踪处理频率为 3-4 Hz,无 GUI 时为 4-5 Hz,高斯模型约每 8 秒更新一次。
7. 总结 & 未来工作
总结
本文提出了“6DOPE-GS”,这是一种基于二维高斯溅射(2D Gaussian Splatting)的无模型 6D 物体姿态估计与重建的新方法,可迭代地联合优化物体姿态估计和 3D 重建。该方法的高效性关键在于基于空间覆盖的动态关键帧选择机制、基于置信度的过滤机制以去除错误关键帧,以及基于不透明度百分位数的自适应密度控制机制以去除无关紧要的高斯粒子。通过在 HO3D 和 YCBInEOAT 数据集上的验证,这些改进使得 6DOPE-GS 在计算效率上提高了约 5 倍,成功在近实时动态跟踪场景中实现了速度、精度和稳定性的实际平衡。
未来展望
尽管高斯光栅化渲染效率高,能快速修正小的平移和平面内旋转误差,但在梯度计算方面可能不如神经辐射场使用的可微光线投射。为解决这一问题,计划研究使用光线投射来渲染高斯表示,以提高性能和计算效率。另一个潜在的局限性是优化后的二维高斯粒子没有直接集成到在线姿态图优化中,仅使用了优化后的姿态。未来将探索如何使训练后的物体表示与姿态图优化更紧密地结合。
本文仅做学术分享,如有侵权,请联系删文。
来源:雷霆战神王