摘要:提出了一种替代范式:通过适当组合较小的卷积核(如7×7、9×9、1×1)来扩展ERF并保持ERF的AGD,而不是仅仅使用超大规模ERF。引入了三层感受野聚合器(RFA),从感受野的角度设计了层算子(LO)作为基本算子。设计了层算子(LO),包含放大器(Amp)
作者丨集智书童
来源丨集智书童
编辑丨极市平台
代码和模型 https://github.com/ai-paperwithcode/UniConvNet
01 引言随着Transformer的显著成功[19, 38],构建长距离依赖关系已成为设计卷积神经网络(ConvNets)的关键原则。一些先前工作[17, 18, 37]尝试捕捉大感受野内的关系,超越了传统卷积神经网络[23, 45, 49, 59, 82],并在图像分类、目标检测、实例分割和语义分割等多种视觉识别任务中取得了显著改进。当前的ConvNets通过使用重新参数化[15, 17]、参数共享[5]或Sparse性[37]技术来扩大卷积核,从而实现长距离依赖。一些近期工作利用大核的关键特性[18]或编码其交互[32]来指导ConvNet架构设计。它们受益于大ERF(等效感受野),但受限于高参数和FLOPs(浮点运算次数)成本。
卷积神经网络(ConvNets)的典型范式[21, 23, 70]是使用多个小型空间卷积(例如)堆叠来扩大其感受野。为什么受限于小感受野(ERF)的小核卷积网络仍然能取得有效性能?传统的卷积网络,如ResNet101[23],具有小感受野,但能通过卷积模块堆叠获得多尺度影响(梯度),这遵循自适应梯度下降(AGD),如图1(A)所示。这表明输入中靠近输出像素位置的小尺度像素应对输出像素产生更大影响。大核卷积网络,如SLaK-T[37]和UniRepLKNet-T[18],虽然实现了大感受野,但破坏了AGD,导致要么在奇怪的位置获得判别性影响,要么不同尺度获得相似影响,如图1(B)和图1(C)所示。
有没有一种合适的方法可以将较小的核组合起来以扩展 ERF 同时保持 ERF 的 AGD?本文提出了一种替代范式:与其仅仅使用极大型 ERF,通过适当组合较小的核来扩展 ERF 同时保持 ERF 的 AGD 更为有效和高效。
为回答此问题,作者引入了一种用于卷积神经网络的感受野聚合器(RFA),旨在通过直接为不同尺度分配影响,在阴影模块中获取AGD。输入图像根据RFA的层级被分离成多个 Head 。通过递归地将多 Head 输入馈送到层操作器,减少了参数和FLOPs成本,并在通道之间创建了一个金字塔式增量。对于通道间具有不同模式的 Head ,在每一层,作者从感受野的角度提出了一种空间编码器,称为层操作器(LO)。LO由两个组件组成:放大器(Amp)和判别器(Dis)。Amp通过逐元素乘法扩展感受野的尺度,并放大像素对感受野的影响。感受野中的显著像素将产生更明显的影响。
Dis将新像素的小尺度影响提供给由Amp产生的大感受野。最终感受野成为一个大双层感受野。随后,每个LO通过Amp扩展并放大前一个LO的感受野,并提供一个判别性感受野用于添加小尺度像素的影响。三层RFA的最终感受野通过AGD产生一个四层感受野。ERF可以通过堆叠多个RFA模块进行扩展,并保持ERF的AGD,如图1(D)所示。
基于这些设计,所提出的UniConvNet能够高效地减少参数和FLOPs,同时获得对ERF的多尺度影响。因此,它在各种视觉识别任务中,从轻量级到大规模模型,均优于当前的CNN和ViT,如图2所示。
值得注意的是,UniConvNet-T达到了84.2%的TOP-1准确率,超越了参数和FLOPs相似的模型至少0.6个百分点,相较于现有的ConvNets[5, 37, 40, 72]实现了显著提升。UniConvNet-XL突破了ConvNet Bottleneck ,以更优的参数和FLOPs权衡,达到了88.4%的TOP-1准确率,优于当代CNNs[17, 32, 40, 50, 69, 72]和ViTs[13, 38, 39, 74]。UniConvNet在下游任务上也表现出色。UniConvNet-L在COCO[34]上达到了55.7%,在ADE20K[85]上达到了55.1%。
作者相信UniConvNet的高性能主要得益于其较大的ERF[42],同时保持了AGD,如图1所示。ERF的尺度与使用极大核的ConvNets相当。ERF的AGD与“相邻像素应具有更大影响”的直观理解更为相似。作者希望作者的发现能够帮助理解ConvNets的内在机制。
作者开发了不同版本的UniConvNet,以匹配各种当代模型的复杂性,包括最先进的轻量级网络[43, 64, 66, 81]和大规模网络[18, 38, 40, 69, 72, 74]。作者评估了UniConvNet不同版本的性能,并将其与领先的CNN和ViT在代表性视觉任务(包括图像分类、目标检测以及实例和语义分割)中进行了比较。
为了进行公平的比较,遵循常见做法[40,72],UniConvNet-A/P0/P1/P2/N0/N1/N2/N3/T/S/B在ImageNet-1K上训练300个epoch,而UniConvNet-L首先在ImageNet-22K上训练90个epoch,然后在ImageNet-1K上进行微调20个epoch。详细的ImageNet-1K/22K训练设置、ImageNet-1K微调设置以及不同变体的训练配方分别在附录D.1、D.2和D.3中呈现。
如表1和表2所示,作者提出的模型变体在性能上显著优于现有先进模型,有效缩小了轻量级模型与大规模模型之间的差距。现有模型在轻量级场景下表现出较差的性能,或者在规模扩大时无法达到足够的精度。
在ADE20K数据集上进行语义分割 作者使用ImageNet-1K预训练的UniConvNet对DeepLabv3 [7]和PSPNet [83]进行微调,训练轮次为160k。作者还使用代表性的语义分割框架UperNet在ADE20K数据集上对扩展后的UniConvNet进行微调,训练轮次为。详细的微调设置请参见附录D.5。
总体结果 如表3、表4、表5和表6所示,作者提出的UniConvNet与当前最先进模型相比显著提升了性能,同时提供了更轻的参数和更低的FLOPs。这证明了所提出的Three-layer RFA的有效性和效率,以及其在下游任务中改进的能力。
第2.3节探讨了层数量N和渐进式核大小的约束条件。基于UniConvNet-T,作者调整层数量N和渐进式核大小进行消融研究。结果表明,针对这两个超参数提出的原理是有效且准确的。如表7所示,对于第3层,小于(5, 7, 9)的渐进式核大小可能不足以将等效感受野(ERF)扩展到现有大核卷积网络的水平,从而导致性能下降。大于(9, 11, 13)的渐进式核大小在TOP-1准确率上优于UniConvNet-P0,参数量和FLOPs略高。相比之下,UniConvNet-A和UniConvNet-T在(7, 9, 11)的核大小时表现更优。渐进式核大小(9, 11, 13)在构建等效参数的深度模型时效率低下,这对模型感知至关重要。
因此,作者选择(7, 9, 11)的核大小以兼顾效率。对于第4层,渐进式核会导致理论感受野远大于第3阶段14×14图像的大小,这对于224×224的图像分辨率而言是浪费的,这与缓解现代大核卷积网络参数量和FLOPs负担的初衷相悖。
对ERF不同AGD的探究 作者还考察了大型核尺寸(如27、29、31)的感知能力,这些核尺寸在RepLKNet [17]中已被使用。性能结果表明,使用大型核既不高效也不适用于根据AGD构建长距离ERF,这会破坏小尺度像素上的AGD。作者进一步在前两层使用相对较小的核,然后在后一层使用一个极大型核,例如(7, 9, 29)和(7, 11, 31)。与(7, 9, 11)的核尺寸相比,这在小范围内建立了一个小尺度AGD,并通过后一个极大型核扩展了ERF。较差的性能表明,由三层RFA从中心到边缘生成的具有连续AGD的大型ERF至关重要且适当。作者分析了几个模型的ERF,并证明小尺度像素的适当AGD比扩展ERF更为重要。详细分析请参见附录A。
效率作者在表8中展示了UniConvNet变体的参数和FLOPs。UniConvNet由三层RFA、改进的DCNV3、前馈层和分类头组成。通常,与小型核改进的DCNV3相比,三层RFA具有更少或相当的参数和FLOPs。这表明作者提出的三层RFA可以在减少FLOP成本的同时建立长距离依赖关系,并提高参数效率。
有效性 作者进行消融研究,比较不同的大型核和小型核卷积的组合,以评估不同模块的有效性。如表9所示,仅使用三层RFA或改进型DCNV3的模型分别达到了78.4和78.5的相似top-1准确率。这表明所提出的三层RFA在无需依赖传统卷积网络通常使用的基本小规模信息的情况下,仍保留了相当的特征感知能力。
卷积神经网络(ConvNets)[16, 21, 23, 26, 27, 43, 51, 53, 54, 69, 71, 72, 78, 80]长期以来一直是视觉识别的标准架构,这得益于其固有的归纳偏差。CNNs通过堆叠小型卷积核来建立局部依赖关系,这限制了其感知能力。然而,随着计算机视觉中注意力机制的出现,CNNs的主导地位正受到挑战。近年来,基于注意力的模型[1, 4, 8, 9, 19, 29, 31, 33, 38, 44, 52, 64, 67, 68, 76]因其能够通过自注意力机制建立长距离依赖关系来实现全局感知,逐渐成为计算机视觉任务中的关键模型。
作者引入了一种感受野聚合器(Receptive Field Aggregator,RFA),以扩展有效感受野(Effective Receptive Field,ERF),同时保持ERF的渐近高斯分布(Asymptotically Gaussian Distribution,AGD)。据此,作者设计了一个三层RFA,用于分辨率为的输入图像,该模块可以作为卷积神经网络(ConvNet)的即插即用组件,或替换其内部的卷积层。基于这些设计,作者提出了一种通用卷积神经网络(ConvNet),称为UniConvNet,并在广泛的视觉识别任务中评估其性能。所有UniConvNet的变体在减少参数和FLOPs的同时,表现出更优越的性能。这项工作可能引起对遵循AGD设计大ERF的关注,从而增强任何规模的卷积神经网络。
[1]. UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale
来源:极市平台