摘要:作者:Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda
作者:Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda
机构:Yale University、Google DeepMind
01 导读基于开放式语言提示对对象进行分割的能力仍然是一个关键挑战,这要求模型在处理多样且未见过的类别时,能够将文本语义转化为精确的空间掩码。我们提出了OpenWorldSAM框架,该框架通过整合来自轻量级视觉语言模型(VLM)的多模态嵌入,将基于提示的Segment Anything Model v2(SAM2)扩展到开放词汇场景中。我们的方法遵循四个核心原则:
统一提示:OpenWorldSAM支持多种类型的提示, 包括类别级和句子级的语言描述,为各种分割任务提供了灵活的接口。效率:通过冻结SAM2和VLM的预训练组件,我们仅在COCO-stuff数据集上训练了450万个参数,从而实现了显著的资源效率。实例感知:我们通过新颖的位置判定嵌入和跨注意力层增强了模型的空间理解能力,使得能够有效分割多个实例。泛化能力:OpenWorldSAM具备强大的零样本学习能力,无需额外训练即可很好地泛化到未见过的类别和开放词汇概念上。大量实验表明,OpenWorldSAM在ADE20k、PASCAL、ScanNet和SUN-RGBD等多个基准测试中,实现了开放词汇语义分割、实例分割和全景分割领域的最先进性能。02 效果展示绿色区域突显了SAMv2基线,并支持用于交互式分割的视觉提示(例如框、点)。我们的OpenWorldSAM扩展集成了开放词汇量的语言理解能力,使得在语义、实例、全景任务中实现类别级别的分割以及指代表达分割成为可能。
OpenWorldSAM在六个数据集上使用一套参数达到了新的SOTA水平。
图像分割长期以来一直局限于封闭词汇设定,在这种设定下,模型只能识别来自预定义分类体系中的对象。然而,现实世界的应用,例如具身人工智能(Embodied AI),需要能够理解开放式语言描述(从“行人”这样的单个名词到“穿红色衬衫的男人”这样丰富的指代表达)的系统,并且能够分割在训练过程中未见过的全新对象。 这种开放词汇分割问题带来了两个核心挑战:(1)语义接地(Semantic grounding)——将自由形式的文本映射到视觉实体;(2)实例感知(Instance awareness)——区分与同一描述相匹配的多个对象。
以检测为中心的方法依赖于两阶段流水线,首先检测与类别无关的掩码提议,然后使用视觉语言模型(Vision-Language Models,VLMs),如CLIP和ALIGN对它们进行分类。虽然这些方法有效,但难以处理复杂的查询,并且专门用于语义分割,缺乏通用性。近期出现的通用模型探索了联合处理视觉和语言的统一架构,使单个模型能够执行检测、分割和接地任务。这些通用模型展现出了令人印象深刻的灵活性,但通常需要进行资源密集型预训练。像分割一切模型(Segment Anything Model,SAM)这类可提示分割模型的出现带来了新的可能性——它通过允许用户使用简单的视觉提示(例如点、框)来分割任意对象,从而引入了一种范式转变。这些模型在广泛的数据集上进行训练,展现出了卓越的泛化能力和交互能力。然而,它们本质上缺乏语义理解能力。后续尝试将SAM与大型语言模型(Large Language Models,LLMs)相结合,虽然实现了语言感知,但计算成本高昂,带来了巨大的开销。
我们认为,理想的开放词汇分割器应具备以下特点:(i)无需级联分类组件即可原生支持文本提示;(ii)在不增加大量开销的情况下保留像SAM这类视觉基础模型的知识;(iii)能够分割可能与单个查询相对应的多个可能实例。为此,我们提出了OpenWorldSAM,这是对SAM v2(SAM2)架构的开放词汇扩展,可满足这些要求。OpenWorldSAM通过轻量级语言适配器(约450万个可训练参数)注入语言理解能力,同时保留了SAM2的核心优势,实现了类别级实例分割、语义分割和全景分割,以及句子级指代表达分割。
具体而言,我们将图像和描述性文本输入到冻结的多模态编码器中,并获得融合的语义表示。这些表示作为提示输入到SAM2的掩码解码器中,该解码器可为任何描述的对象或区域生成掩码。我们引入了一种位置平局打破(positional tie-breaker)机制,以解决当文本查询可能适用于多个区域时产生的歧义,使模型能够执行多实例分割。此外,我们的适配器采用了一种软提示(soft prompting)技术,该技术利用文本查询和图像特征之间的交叉注意力机制,通过使语义上下文聚焦于相关图像区域来提高定位精度。通过结合这些设计创新,OpenWorldSAM能够仅使用冻结的预训练编码器和一个微小的可训练适配模块,就能准确识别和分割由文本描述的任意对象。
总之,OpenWorldSAM代表了“在开放世界中分割一切”的新范式。它在灵活的语言提示引导下,继承了SAM的交互性。
04 主要贡献我们的贡献包括:
我们提出了OpenWorldSAM,这是一个支持各种开放词汇分割任务的统一接口。我们提出了一种高效的带有平局打破和交叉注意力软提示的语言适配器,提高了多对象定位能力。
OpenWorldSAM在六个基准测试中取得了最先进的零样本性能(如图2所示),为开放词汇分割设定了新标准(例如,在ADE20K上取得了60.4的mIoU)。与近期模型相比,OpenWorldSAM在指代表达分割方面也取得了优异性能(在RefCOCOg上取得了74.0的cIoU),且资源消耗大幅减少。
我们的工作表明,轻量级的架构干预可以解锁与专门模型相媲美的零样本分割能力,同时保留SAM2的效率和交互性。
05 方法动机与关键挑战。与SAM类似的架构的一个根本局限性在于,它们无法从单个提示中解决多实例歧义。虽然视觉提示(例如点)可能偶尔缺乏粒度特异性——例如,点击背包可能意味着对背包或整个人进行分割(如图3a所示)——但它们本质上会定位到单个空间区域。然而,语言提示引入了一个独特的挑战:像“斑马”这样的文本查询可能对应于多个空间上不连续的对象(如图3b所示),且事先不知道实例数量。先前尝试添加语言功能的方法要么依赖于分割后分类流水线(失去了端到端训练能力),要么需要在预训练期间进行昂贵的区域级文本接地。我们的关键见解解决了这一差距:如果SAM2的掩码解码器配备了多样化的位置引导,即能够将相同的语义查询分解为空间上不同的分割目标的学习线索,那么它本质上就可以分割多个实例。
架构概述。图4展示了我们的框架,该框架包括:(i)一个提取图像特征的分层SAM2图像编码器;(ii)一个联合处理图像和文本提示的多模态视觉语言编码器;(iii)一个轻量级多层感知机(MLP)投影器;(iv)用于多实例查询的可学习位置平局打破器;(v)一个将文本-图像特征与SAM2的图像特征对齐的软提示Transformer模块;(vi)生成最终掩码的SAM2掩码解码器。只有包含组件(iii - v)的小型语言适配器经过训练;所有其他主干网络均保持冻结状态。
OpenWorldSAM通过将SAM的分割能力与视觉语言模型的语义接地能力相结合,弥合了可提示分割与开放词汇理解之间的差距。这种方法在各种任务(语义/实例/全景)和提示(名词/句子)上具有通用性,为处理现实场景中常见的新对象和模糊查询的从业者提供了统一的工具。三项创新推动了这一成功:
位置平局打破器能够从单个文本查询中实现多实例分割,解决了与SAM类似架构的一个关键局限性。跨模态软提示动态地将语言语义与SAM的视觉空间对齐,确保了精确的定位,而无需使用成本高昂的LLMs。冻结基础协同作用利用了来自SAM和BEiT-3的预训练知识,证明了密集预测任务与分类任务一样,能从参数高效的适配中受益。除了技术贡献之外,OpenWorldSAM还推动了一种扩展分割基础的范式:与其训练整体式模型,不如对冻结组件进行战略适配,以最低成本实现开放世界就绪。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~本文仅做学术分享,如有侵权,请联系删文。
来源:极市平台