SceneSplat:首个开源的端到端3D高斯场景理解框架!

B站影视 欧美电影 2025-09-11 03:24 1

摘要:当前开放词汇的3D场景识别方法严重依赖2D或文本模态,缺乏直接处理3D数据的端到端模型。

当前开放词汇的3D场景识别方法严重依赖2D或文本模态,缺乏直接处理3D数据的端到端模型。

SceneSplat 应运而生,成为首个在3D高斯泼溅(3DGS) 上原生运行的端到端大规模室内场景理解框架。

技术突破

纯3D模态处理:无需2D/文本辅助,单次前向传播即可预测数百万3D高斯的开放词汇语义特征;

自监督学习:提出 GaussianSSL方案,从未标注场景中学习可泛化的3D特征;

大规模数据集:发布首个针对室内场景的3DGS数据集 SceneSplat-7K,覆盖7个权威数据集(ScanNet、Matterport3D等),包含 7,916个场景、112.7亿高斯点,重建质量达PSNR 29.64 dB。

性能表现

1、零样本语义分割

在ScanNet200、ScanNet++、Matterport3D上均达SOTA:

开放词汇分割mIoU提升显著;

自监督预训练后在ScanNet/ScanNetpp分割任务同样领先。

2、定性能力突破

开放词汇查询:识别训练集外类别(如“Robot Arm”);

属性理解:响应抽象概念(如“Vacation”→“Travel Guide”);

分割一致性:解决原始标注碎片化问题。

应用场景

SceneSplat的出现为3D场景理解带来了新的可能性。其能力让3D高斯场景不仅能够被看见,更能被“听懂”,理解自然语言的查询并作出响应。

这项技术具有广泛的应用前景:

机器人技术:使机器人能够更好地理解复杂的环境,进行导航和操作。

混合现实:为AR/VR应用提供更智能、更交互的环境理解能力。

具身智能:为 embodied AI 提供丰富的场景语义信息,支持更复杂的行为决策。

场景编辑与创作:像3DitScene和SC-GS这样的场景编辑技术可以受益于更精确的语义理解。

GitHub:https://github.com/unique1i/SceneSplat

来源:走进科技生活

相关推荐