TPAMI 2025 | 港科大 & 腾讯 VMNet:解决体素方法几何模糊痛点

B站影视 内地电影 2025-10-24 17:59 1

摘要:你是否想过,当AI看到一个三维房间时,它是如何分辨出哪里是桌子、哪里是墙壁的?近年来,基于体素的三维语义分割方法一直是主流,但它们有个致命缺点——看不懂物体表面的"几何关系"。今天要给大家介绍的这项研究,就像给AI装上了"几何眼镜",让机器既能理解空间距离,又

作者丨小白学视觉

来源丨小白学视觉

编辑丨极市平台

你是否想过,当AI看到一个三维房间时,它是如何分辨出哪里是桌子、哪里是墙壁的?近年来,基于体素的三维语义分割方法一直是主流,但它们有个致命缺点——看不懂物体表面的"几何关系"。今天要给大家介绍的这项研究,就像给AI装上了"几何眼镜",让机器既能理解空间距离,又能感知物体表面的连接关系。

题目:Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation of Indoor Scenes

基于体素-网格网络的室内场景测地线感知三维语义分割

作者:Zeyu Hu, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai

想象一下,当你站在房间里,很容易就能区分出紧挨着的桌子和椅子——因为它们虽然离得近,但表面并不相连。但对传统体素方法来说,这事儿可太难了!

传统体素方法就像用无数小方块拼出房间,通过计算小方块之间的欧氏距离来判断关系。但这样会出现两个大问题:

空间上接近但表面分离的物体(比如桌腿和墙壁)会被误认为是同一类复杂形状的物体(比如雕花栏杆)因为几何信息丢失而被分割得乱七八糟

左图:人类能轻松区分的物体边界 右图:传统方法的误判结果

而我们人类感知世界的方式,其实是两种信息的结合:既会看物体离得多远(欧氏距离),也会看它们在表面上是否相连(测地线距离)。这就是VMNet的核心灵感——让AI同时掌握这两种"感知能力"

来自TPAMI 2025的这项研究提出的体素-网格网络(VMNet),创新性地将体素和网格两种表示结合起来,就像给AI配备了两套感知系统:

欧几里得分支:用体素计算空间上下文信息,掌握物体间的位置关系测地线分支:用网格分析表面连接性,理解物体的几何结构

VMNet总体架构图:上下两个分支分别处理欧氏信息和测地线信息

整个网络的工作流程就像一场"信息接力赛":

VMNet能超越传统方法,关键在于两个"注意力模块"的设计,它们就像两个智能过滤器,让有用的信息被保留,无关的信息被过滤。

这个模块专门处理网格上的特征,它会让每个顶点都和周围的邻居"交流信息"。就像小区居民聊天时会更关注可信的邻居,每个顶点也会给相邻顶点分配不同的"注意力权重"。

左:域内注意力计算方式 右:两级聚合模块结构

通过这种方式,属于同一物体的顶点会强化彼此的特征,而不同物体的顶点则会弱化影响。这完美解决了"表面不相连但空间接近"的分割难题。

当欧氏特征和测地线特征相遇时,这个模块会像调解员一样,决定该听谁的多一点。它会计算两种特征的匹配度,自动调整权重:

在空旷区域,更相信欧氏特征的空间判断在复杂几何区域,更依赖测地线特征的表面分析

跨域注意力模块:让两种特征各尽其责

这种自适应融合方式,比简单的拼接或相加要聪明得多,充分发挥了两种表示的优势。

处理整个三维场景的网格数据非常耗费计算资源,就像用4K分辨率玩大型游戏一样卡顿。VMNet用了个巧妙的办法——构建多层次简化网格:

顶点聚类(VC):先把密集的顶点分组,像给图片降分辨率一样减少顶点数量二次误差度量(QEM):进一步简化时保持物体的拓扑结构,就像压缩图片时保留关键轮廓

顶点聚类:用立方体网格分组顶点

QEM方法:通过边收缩简化网格同时保持拓扑

这种组合策略既去除了噪声,又保留了关键的几何信息,让网络能高效处理大规模场景。

ScanNet数据集:以1700万参数实现74.6%的mIoU,超越了3000万参数的SparseConvNet和3800万参数的MinkowskiNetMatterport3D数据集:平均类别准确率达到新高度,比之前的最佳方法高出1%

ScanNet数据集上的性能对比

更重要的是定性结果的提升,看看这些对比图:

ScanNet验证集上的分割结果:上为传统方法,下为VMNet

在复杂场景中,VMNet能更精准地分割出椅子腿、桌面边缘等细节,对于空间接近的物体也能清晰区分。

两种信息缺一不可:仅用欧氏信息或仅用测地线信息的效果都远不如结合两者注意力机制是关键:域内注意力提升1.9%,跨域注意力再提升1.2%网格简化有讲究:VC+QEM的组合比单独使用任何一种方法效果都好

不同模块的贡献分析

值得一提的是,VMNet在参数更少的情况下实现了更好的性能,证明了其设计的高效性。这意味着在实际应用中,它能在普通GPU上更快地处理大型场景。

这项研究不仅在三维语义分割任务上取得了突破,更重要的是提供了一种新思路——结合欧氏信息和测地线信息来理解三维世界。这为其他任务如:

三维实例分割物体姿态估计场景重建与编辑

提供了很好的借鉴。相信随着这种"双域感知"思路的发展,AI对三维世界的理解会越来越接近人类的感知方式。如果你对三维视觉感兴趣,不妨深入阅读这篇论文,里面还有更多精彩的技术细节等待探索!

来源:极市平台

相关推荐