从物体检测到通用视觉感知:构建空间智能的基础

B站影视 韩国电影 2025-04-17 08:49 2

摘要:随着以ChatGPT为代表的生成式人工智能的突飞猛进,人工智能(AI)正在从处理文本、2D图像和视频向空间智能发展。空间智能是指机器在三维空间中的感知、理解和交互能力,它不仅仅是让机器“看见”世界,而且使得机器能够像人类一样在复杂的三维环境中进行导航、操作和决

随着以ChatGPT为代表的生成式人工智能的突飞猛进,人工智能(AI)正在从处理文本、2D图像和视频向空间智能发展。空间智能是指机器在三维空间中的感知、理解和交互能力,它不仅仅是让机器“看见”世界,而且使得机器能够像人类一样在复杂的三维环境中进行导航、操作和决策,从而推动人工智能在自动驾驶、无人机导航、具身智能等领域的发展。

物体检测是指识别和定位图像或视频中物体的能力。在空间智能中,机器需要理解其所处的三维环境,这一理解首先依赖于对环境中各个物体的位置和语义的准确检测。只有通过有效的物体检测,人工智能系统才能获取关于空间布局和物体关系的信息,从而进行更复杂的推理和决策。因此,物体检测能力是空间智能发展的基石。

本文通过回顾近20年物体检测的发展,结合粤港澳大湾区数字经济研究院(以下简称“IDEA研究院”)最新DINO-X模型的介绍,对如何利用通用视觉感知模型构建空间智能基础进行系统性分析与探讨,旨在开拓和促进相关领域的研究,加速空间智能技术的真正落地。

物体检测领域的3个里程碑

计算机视觉(CV)是指机器感知环境的能力,它的起源可以追溯到20世纪50年代,并在随后的几十年中逐渐演变为一个独立且重要的研究领域。

20世纪50年代:计算机视觉的初步探索开始,研究者们尝试使用计算机处理和分析图像数据。早期应用包括光学字符识别和简单的图像测量。

20世纪60年代:随着计算机技术的发展,拉里·罗伯茨(Larry Roberts)在其博士论文中提出了从二维图像提取三维几何信息的研究,标志着计算机视觉作为独立学科的开端。

20世纪70年代:大卫·马尔(David Marr)提出了视觉系统的理论框架,强调将二维图像转换为三维结构表示的重要性,为后续的研究提供了理论支持。

物体检测是计算机视觉的核心任务之一,旨在识别和定位图像或视频中的目标物体。这一能力为机器理解和分析视觉信息提供了基础,使得计算机能够“看见”并“理解”周围的环境。通过物体检测,计算机不仅能够识别物体的存在,还能够确定其位置、大小和形状,从而为后续的决策和行动提供依据。

物体检测在近20年的发展历程中经历了显著的变革,可以通过以下3个里程碑进行描述。

1Pre-deep Learning: Viola-Jones 人脸检测器(2001)

2001年,保罗·维奥拉(Paul Viola)和迈克尔·琼斯(Michael Jones)提出了Viola-Jones人脸检测器,这是物体检测领域的一个重要里程碑。该算法通过使用Haar特征、Adaboost算法和级联分类器实现了快速和高效的人脸检测。主要包括以下特点。

Haar特征:使用简单的矩形特征来表示人脸的不同部分。

Adaboost算法选择最具区分能力的特征,组合多个弱分类器形成强分类器。

级联结构:通过快速排除明显不是人脸的区域,提高检测速度。

Viola-Jones算法不仅在学术界获得广泛认可,还被广泛应用于商业产品,成为早期物体检测的标准框架。

2CNN: Faster R-CNN (2015)

2015年,Faster R-CNN的提出标志着深度学习时代物体检测技术的飞跃。Faster R-CNN结合了区域提议网络(Region Proposal Network, RPN)与Fast R-CNN模型,实现了更快的物体检测速度和更高的准确性。其核心创新如下。

区域提议网络:通过共享卷积特征,实时生成候选区域,大幅提升了检测速度。

两阶段检测:首先生成候选区域,然后对这些区域进行分类和边界框回归。

Faster R-CNN在自动驾驶、安防监控等多个领域展现出卓越性能,成为许多后续研究和应用的基础。

3Transformer: DETR (2020) [3] & DINO (2022) [4]

基于Transformer架构的DETR(Detection Transformer)和DINO(IDEA研究院在DETR基础上通过系列研究工作提出的改进模型)相继于2020和2022年问世。这些模型代表了物体检测的新方向,主要特点如下。

DETR通过引入Transformer编码器及解码器结构,将物体检测任务转化为端到端的优化问题,利用自注意力机制处理图像中的物体关系,大大简化了传统检测流程。

DINODAB-DETR [5](通过引入Anchor Box到DETR使得DETR Query有更好的可解释性)到DN-DETR [6]

(引入去噪任务加速DETR训练),再到DINO(进一步改进DAB-DETR和DN-DETR),DINO系列工作有效地解决了DETR训练收敛慢及检测性能不如传统基于CNN的检测算法的问题,于2022年3月跻身视觉领域最基础的COCO物体检测榜单第一名,并保持长达5个月的时间,成为物体检测领域的代表性方法,为很多后续研究工作所采用。

这两种模型展示了Transformer在视觉任务中的潜力,其中DINO模型第一次使得DETR 类算法成为物体检测领域的最佳算法,为未来的通用视觉感知奠定了基础。

从闭集检测到开集检测

尽管DINO模型取得了COCO榜单的“当前最优水平”(SOTA),但它仍然是个闭集检测模型。闭集检测模型假设训练和测试阶段的物体类别是一致的。在这种模型中,所有可能的物体类别在训练时都已知,并且模型只需识别这些已知类别。其特点如下。

固定类别:模型只能识别训练时见过的类别,无法处理未见过的类别。

高准确率:因为模型专注于特定的物体,在已知类别上通常表现出较高的准确性。

有限适应性:对于新出现的类别或环境变化,闭集模型无法进行有效识别。

开集检测模型旨在解决现实世界中常见的未知物体类别问题。该模型不仅能够识别已知类别,还能发现和处理未知类别。其特点如下。

动态适应性:能够在不需要事先定义所有可能类别的情况下,识别和区分未知物体。

更强的泛化能力:相较于闭集模型,开集检测具有更好的泛化能力,可以适应不断变化的环境。

贴近人类认知:模仿人类在面对新事物时的识别能力,使得系统在实际应用中更为实用。

开集物体检测的关键在于引入语言理解来扩展对未见过的类别的检测泛化能力。目前,大多数开集检测模型通过扩展闭集检测框架,并结合语言信息来适配开集场景。例如,IDEA研究院提出的Grounding DINO模型 [7],通过在特征增强器、语言引导的查询选择模块以及跨模态解码器等多个阶段实现视觉与语言模态的融合,进一步优化了闭集检测器DINO。这种深度融合的策略显著提升了开集物体检测的性能。

通用视觉感知模型

在开放环境下,物体检测面临着诸多挑战,除了物体类型的多样性外,同一类物体也包括不同的场景、不同的光照条件等,这些因素都可能导致检测性能的下降。同时,开放环境也带来了新的机遇,如更丰富的应用场景和更广泛的应用需求。

近年来,通用视觉感知模型逐渐兴起,它们通过大规模预训练和多任务学习,能够学习到更加通用和鲁棒的特征表示,从而在多种任务和场景中取得优异的性能。与传统模型相比,通用视觉感知模型具有更强的泛化能力和适应性。

目前,主流的通用视觉感知模型包括CLIPDINO-X等。其中的DINO-X模型是由IDEA研究院开发的一种通用视觉模型,是Grounding DINO的升级之作。

DINO-X模型具有以下特点。

1)全面提升的检测性能

DINO-X在开集物体检测领域提出一种新的零提示检测模式,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

在零样本评估设置中,DINO-X Pro在业界公认的LVIS-minival数据集上取得了59.8%的AP,大幅超过其他现有算法。在LVIS-val数据集上,DINO-X Pro也表现突出,取得了52.4%的AP,见表1。

具体到LVIS-minival数据集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP,在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X是目前视觉领域检测性能最好的通用视觉模型。

2)泛化和通用性

得益于超过1亿高质量、具有物体级别标注信息的大规模训练数据,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。

3)多任务感知与理解

DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实(见图1)。

4)长尾物体检测优化

为了支持长尾物体的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示,使得模型可以更加方便地适配新的场景和检测问题。

总之,包括DINO-X在内的通用视觉感知模型,通过万物识别等能力,让其拥有了对开放世界(Open World)的视觉感知,能够轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

通用视觉感知与空间智能

李飞飞教授在2024TED大会上阐述了“空间智能”(Spatial Intelligence)的概念,并在2024 年英伟达GTC开发者大会的炉边谈话中,同样谈及了“空间智能”的概念。她认为空间智能是更为基础的人工智能技术,使机器能够像人类一样进行更复杂的视觉推理和行动规划,且关键点在于在真实世界中,机器人在未经预先训练的情况下,即能直接执行任务。其核心是指空间智能算法可以合理地推断出图像和文字在三维环境中的样子,并根据这些预测采取行动。

空间智能这个概念最早由美国心理学家霍华德·加德纳(Howard Gardner)在其1983年出版的《智能的结构》(Frames of Mind: The Theory of Multiple Intelligences)一书中提出。更确切地说,这个概念是和视觉能力紧密相关的,书中提出的视觉-空间智能 (Visual-Spatial Intelligence) 是一种理解和操作视觉空间信息的能力,涉及对物体形状、大小、方向、相对位置以及三维空间的感知和操作。它不仅包括对物体和图像的识别,还包括在头脑中以三维方式想象和操作这些对象的能力。

英国帝国理工学院戴森机器人实验室的安德鲁·戴维森(Andrew Davison)教授,在2018年的论文“FutureMapping: The Computational Structure of Spatial AI Systems”中也提到了“Spatial AI”(空间人工智能)。他认为,“Spatial AI”由视觉SLAM(Simultaneous Localisation and Mapping)演变而来,未来会成为下一代智能机器人、移动设备等产品的基础技术。Spatial AI系统的目标不是抽象的场景理解,而是连续地捕获正确的信息,并构建正确的表示,以实现实时的解释和行动。

安德鲁·戴维森认为,Spatial AI的核心问题是增量估计。增量估计问题是指在实时环境中,如何持续地存储和更新一个包含静态和动态元素的场景模型。增量估计是关键挑战,因为需要系统能够处理来自多种传感器和数据源的连续数据流,并将其融合到一个一致的场景表示中。

安德鲁·戴维森提出了设计Spatial AI系统的两个关键假设:一是当设备必须长时间运行、执行各种任务,并与包括人类在内的其他实体进行通信时,Spatial AI系统应该构建一个通用且持久的场景表示,该表示至少在局部上接近于度量3D几何,并且是人类可理解的;二是Spatial AI系统对于广泛任务的有用性可以通过相对较少的性能度量来很好地表示。

IDEA研究院结合DINO-X通用视觉感知模型的研究,提出了自己对空间智能的理解(见图2)。DINO-X是一类基于Transformer的物体检测模型,具有强大的 2D 图像理解能力,特别是在物体检测和特征表达上。

通过从2D检测到3D物体感知以及3D环境感知的升级,DINO-X模型旨在实现更全面的环境理解,支持复杂场景的智能感知与交互。这一过程不仅需要算法和模型的创新,还需要硬件加速和高效的数据处理流程的支持。

3D物体感知旨在在2D物体检测基础上,对物体的3D姿态、关键点以及几何结构进行更细粒度的估计,为3D环境理解提供最基础的物体级别的能力。3D物体感知可以集成来自不同来源的数据,如2D图像、深度图(LiDAR、雷达或立体视觉)以及点云数据,通过设计高效的多模态融合策略,提升对物体3D结构的感知能力,以在复杂环境中实现更高的鲁棒性。

3D环境感知涉及场景语义解析和动态建模等多方面问题。场景理解通过结合3D重建与定位技术以及2D物体检测与语义理解,构建全局的3D场景语义地图。这种语义地图能够全面涵盖物体类别、空间位置及其关系,为场景的全面感知提供支持。在动态场景建模中,需要重点分析和建模动态变化的场景中的物体行为,例如行人的移动轨迹以及光影的动态变化,为理解和预测动态环境提供更精确的支持。对这些问题的研究将会进一步推动3D场景理解技术的发展与应用。

此外,在进行3D物体感知和环境感知的研究中,需要构建大规模、多模态的空间感知数据集,对于推进理解多样化和复杂场景的算法研究是非常基础的工作。

面临挑战

DINO-X通用视觉感知模型发展到空间智能的过程中,将面临很多关键挑战。

3D结构的统一表示:物体的3D结构有很多不同的表示方法,如3D边界框、3D关键点、3D点云、3D网格等,后续研究需要考虑如何在算法层面找到统一的表示,实现较高的可扩展性,并且能够适配不同的场景。

3D环境的语义理解:环境的3D重建主要依赖基于几何的多视角视觉方法,如SLAM和SfM等方法。这些方法需要结合2D和3D物体感知对场景进行细粒度的语义理解,后续研究需要考虑如何更有效地结合基于几何和基于物体理解的两种算法,提供更具有语义性的3D环境理解。

计算复杂度:3D数据的处理显著增加了计算复杂度,需要在模型设计中平衡精度与效率。

泛化能力:需要系统化3D感知数据集的构建能力,以确保模型能在真实场景中泛化,尤其是跨域数据或不完备数据的处理能力。

未来展望

图灵奖得主杨立昆(Yann LeCun)作为最早开始推崇世界模型的研究者之一,带领Meta FAIR团队在过去几年进行了一系列世界模型方面的研究。除了Meta外,李飞飞的创业公司World Labs计划要开发大世界模型(LWM),通过空间智能最终赋予人工智能理解、推理和生成3D世界的能力。World Labs近期公布了公司成立后的第一个项目,能够通过单张图片和一句话生成3D世界。与Meta同为人工智能头部公司的谷歌DeepMind在2024年同样公布了团队在世界模型的突破。其在2024年年初推出的世界模型Genie能够生成多种2D世界,而在2024年12月5日发布的第二代Genie 2则实现了质的飞跃,能够通过单图生成可交互的3D世界。

利用DINO-X模型的优势,IDEA研究院未来会从2D物体检测到3D多物体及环境感知等领域进行更加深入的研究,实现一个从真实到模拟(Real2Sim)的管道,并结合人类常识、物理规律、空间推理及世界知识等经验能力来构建世界模型。

参考文献

[1] Young, Freedman, University Physics with Modern Physics, 14th e[1] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2001.

[2] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017(6): 1137-1149.

[3] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]. ECCV, 2020.

[4] ZHANG H, LI F, LIU S, et al. DINO: DETR with improved denoising anchor boxes for end-to-end object detection[C]. International Conference on Learning Representations, 2022.

[5] LIU Shilong, FENG Li, ZHANG Hao, et al. DAB-DETR: dynamic anchor boxes are better queries for DETR[C]. International Conference on Learning Representations, 2022.

[6] FENG Li, ZHANG Hao, LIU Shilong, et al. DN-DETR: accelerate DETR training by introducing query denoising[C]. Computer Visionand Pattern Recognition, 2022.

[7] LIU Shilong, ZENG Zhaoyang, REN Tianhe, et al. Grounding DINO: marrying DINO with grounded pre-training for open-set object detection[C]. ECCV, 2024.

[8] IDEA Research Team. DINO-X: a unified vision model for open-world object detection and understanding[R]. Arxiv, 2024.

本文刊登于IEEE Spectrum中文版《科技纵览》2025年1月刊。

专家简介

刘 伟:粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心首席架构师

张 磊:IEEE会士,粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心讲席科学家。

来源:中科院物理所一点号

相关推荐