摘要:论文一作李放,美国伊利诺伊大学香槟分校 (UIUC) 博二学生,研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Bigga
论文一作李放,美国伊利诺伊大学香槟分校 (UIUC) 博二学生,研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Biggar Willet Professor(Ming-hsuan Yang, Jia-bin Huang 博士导师)。这篇工作为作者在博一期间完成。
研究背景
在三维重建、NeRF 训练、视频生成等任务中,相机参数是不可或缺的先验信息。传统的 SfM/SLAM 方法(如 COLMAP)在静态场景下表现优异,但在存在人车运动、物体遮挡的动态场景中往往力不从心,并且依赖额外的运动掩码、深度或点云信息,使用门槛较高,而且效率低下。
纵使在 3R 时代下,三维与四维前馈模型可以高效产出相机相对位姿与点云结构,但 3R 模型本质上仍存在很多痛点。3R 模型对部署硬件容量需求大 (大 GPU), 对丰富高精度训练数据需求大,易发生场景漂移。而且目前基于 3R 模型的衍生品们仍无法做到同时解决这些问题。Per-scene optimization 的方法常常依赖多种监督和先验,同时优化效率低下。
这让作者重新思考:有没有一种方法可以从动态场景视频准确、高效、稳定地预测相机参数,不受前景运动物体的影响,且仅用一段 RGB 视频作为监督呢?
方法概览
为了实现这一目的,他们提出了 ROS-Cam(RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes),已被 NeurIPS 2025 接收为 Spotlight 论文。代码即将开源。
从第一性原理出发,作者分析并将这个挑战拆解为几部分:
如何高效、准确地建立帧与帧之间的联系?如何有效降低动态场景中移动点对视觉定位损失回归的影响?能否做到仅用 RGB 视频进行监督(理论上所需的最少监督),且不加入其他任何先验,但依旧高效和准确?基于上述思考,作者提出了一种仅 RGB 监督,高效,准确的动态场景相机参数估计的新方法。该方法涵盖了三个部分:
1)补丁式跟踪滤波器
他们发现现有方法都依赖预训练的密集预测模型(深度,光流,点跟踪)建立帧间联系作为伪监督。但这种密集预测模型经常由于准确性无法保证而引入噪声伪监督,影响模型损失回归。但是,准确且鲁棒的帧间关系的建立理论上并不需要密集预测,相反,密集预测除了引入噪声外还会增加模型处理数据的负担,降低模型优化效率。因此,他们提出补丁式跟踪滤波器,用来高效,准确的建立视频帧之间的铰链式稀疏点跟踪联系。
2)异常值感知联合优化
由于不使用任何运动先验,部分伪监督会包含移动点(outlier)轨迹,对模型损失回归造成负面影响。不同于与现有方法对每一帧的每一个像素赋予一个不确定性参数不同,作者认为每一条提取出的点跟踪轨迹表示场景中的一个点(他们称之为校准点),且对每一个校准点赋予一个不确定性参数。相比较现有工作,他们所提出的方法可以使模型需要学习的不确定性参数量随着帧数增加趋于线性增长,从而加快优化效率。
作者用柯西分布中的 scale 参数来代表不确定性参数,并引入 softplus 来保证不确定参数大于 0。此外,他们引入全新的「平均积累误差」和「柯西损失函数」来对模型进行监督,有效避免移动点对相机参数回归的影响。
3)双阶段训练策略。
由于不确定性参数的引入,同时优化所有参数会导致模型倾向于收敛至局部最小值。为了避免这种情况,经过对新引入损失函数中的 Softplus 的极限与凸最小值分析,作者设计了双阶段训练策略,在第一阶段实现模型快速收敛,在第二阶段实现模型稳定高效 fine-optimization。
实验结果
运行时间趋势对比(随帧数增加呈线性增长)来源:机器之心Pro一点号