摘要:3D视觉领域正迎来一场意义深远的变革。牛津大学 VGG(Visual Geometry Group)与Meta AI团队强强联合,发布了最新研究成果——VGGT(Visual Geometry Grounded Transformer)。这是一种基于纯前馈 T
3D视觉领域正迎来一场意义深远的变革。牛津大学 VGG(Visual Geometry Group)与Meta AI团队强强联合,发布了最新研究成果——VGGT(Visual Geometry Grounded Transformer)。这是一种基于纯前馈 Transformer 架构的通用3D视觉模型,其强大的功能令人瞩目,能够从单张、多张乃至上百张图像中,直接推理出相机内参、外参、深度图、点云及3D点轨迹等核心几何信息。
尤为突出的是,在无需任何后处理优化的情况下,该模型在多个3D任务中的性能显著超越了传统优化方法以及现有的SOTA模型,推理速度更是快至秒级。这一突破性的研究成果,彻底打破了过去3D任务长期依赖繁琐几何迭代优化的传统范式,生动展现了“越简单,越有效”理念所蕴含的强大潜力。
长期以来,传统3D重建技术对束调整(Bundle Adjustment, BA)等几何优化方法存在高度依赖。这些方法需要反复进行迭代计算,不仅过程复杂,而且计算成本极为高昂。尽管近年来机器学习技术被引入以辅助优化,但始终难以摆脱复杂后处理带来的重重桎梏。与之形成鲜明对比的是,VGGT采用了开创性的纯前馈设计。通过将大规模3D标注数据与 Transformer 架构深度融合,该模型仅需一次前向传播,便能一气呵成地完成所有几何推理任务。实验数据有力地证明,即便输入数百张图像,VGGT仍能够在短短数秒内输出高质量的结果,无论是在精度还是速度方面,均大幅超越传统优化方法。
研究团队深入剖析后指出,VGGT之所以能够取得如此卓越的成绩,并非源于复杂的结构设计或特定领域的先验知识,而是得益于Transformer架构与生俱来的通用性,以及大规模3D 数据训练所产生的协同效应。
在具体运行过程中,模型首先将输入图像转化为Tokens,随后,这些Tokens与随机初始化的相机Tokens一同被输入到交替注意力模块(Alternating-Attention)中。在这里,通过全局与帧级自注意力层的交替堆叠,模型能够逐步、有效地融合多视图几何信息。最终,相机参数经专用头部解码得出,而图像Tokens则通过DPT头部生成密集预测结果,例如深度图与点图等。值得特别强调的是,VGGT仅使用了自注意力机制(self attention),并未采用跨注意力(cross attention)。
来源:93913虚拟现实