摘要:在复杂遥感环境中检测小目标面临着诸多显著挑战,包括局部空间信息提取不足、特征融合生硬以及全局特征表示有限等。此外,提升模型性能需要在提高准确率和控制计算复杂度之间实现精细平衡。
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
计算机视觉研究院专栏
Column of Computer Vision Institute
在复杂遥感环境中检测小目标面临着诸多显著挑战,包括局部空间信息提取不足、特征融合生硬以及全局特征表示有限等。此外,提升模型性能需要在提高准确率和控制计算复杂度之间实现精细平衡。
PART/1
概述
为解决这些挑战,我们提出了SMA-YOLO算法。首先,我们在骨干网络中引入了非语义稀疏注意力(NSSA)机制,该机制能高效提取与任务相关的非语义特征,从而提高模型对小目标的敏感性。在模型的颈部,我们设计了双向多分支辅助特征金字塔网络(BIMA-FPN),它将高层语义信息与低层空间细节相融合,在扩大多尺度感受野的同时,提升了小目标检测效果。最后,我们融入了通道-空间特征融合自适应头(CSFA-Head),该结构能充分处理多尺度特征,并自适应解决不同尺度的一致性问题,进一步增强了模型在复杂场景下的鲁棒性。在VisDrone2019数据集上的实验结果表明,与基准模型相比,SMA-YOLO的平均精度均值(mAP)提升了13%,在遥感图像小目标检测任务中展现出卓越的适应性。这些结果为进一步推进该领域的研究提供了宝贵的见解和新方法。
PART/2
背景
随着无人机及其他遥感技术的飞速发展,无人机凭借其出色的有效载荷能力、易操作性和灵活的机动性,已成为各类目标检测任务的理想平台。无人机被广泛应用于交通巡逻、环境监测、海上搜救等场景,尤其在人群和车辆安全监控领域。然而,由于遥感平台通常在高空作业,所采集图像中的目标往往非常小,在图像中占据的面积极小,导致像素信息稀疏、目标细节不足。同时,复杂的背景、多变的光照条件、环境噪声以及目标间的遮挡,进一步加剧了小目标检测的难度。因此,小目标检测不仅要解决分辨率低、特征信息有限的问题,还要应对复杂环境干扰和遮挡带来的挑战。这些因素共同使得小目标检测成为一项极具挑战性的任务,迫切需要专门设计的检测算法来提高小目标检测的准确性和鲁棒性。
随着深度学习的快速发展,目标检测模型的性能得到了显著提升。目前,主流的目标检测算法可分为两类:两阶段算法和单阶段算法。
尽管算法取得了这些进展,但由于遥感图像中存在复杂背景、显著的空间分辨率差异以及小目标的不规则排列等问题,挑战依然存在。为进一步提高遥感图像中的目标检测性能,本文提出了一种改进的目标检测算法,具体改进如下:
提出了非语义稀疏注意力(NSSA)机制,该机制抑制稀疏注意力块中语义信息的表达,自适应地提取与操作相关的非语义特征。此机制在保持较少参数数量的同时,增强了对小目标的敏感性。
引入了专为航空影像设计的新型小目标检测头,并提出了双向多分支辅助特征金字塔网络。该网络采用SDF(语义-细节融合)方法,将浅层特征的结构信息与深层特征的语义信息相结合,进一步提升了模型的小目标检测能力,并有效扩大了多尺度感受野。
针对航空图像中不同尺度特征的不一致性问题,本研究引入了CSFA-Head。通过充分利用多尺度特征并自适应处理不同尺度的一致性问题,该网络能够有效过滤冲突问题,使网络能更准确地识别和定位不同尺度的目标。
实验结果表明, SMA-YOLO 有效增强了特征提取和融合能力,显著提升了遥感图像中小目标的检测能力。在保持较少模型参数的同时,其检测精度得到了显著提高。
PART/3
新算法框架解析
YOLOv8由三个主要组件构成:骨干网络、颈部网络和检测头。它包含五个版本,分别是YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x,这些版本在通道宽度、深度和最大通道数方面存在差异。骨干网络通过多次卷积操作从输入图像中提取特征,生成三个不同尺度(80×80、40×40和20×20)的检测头。骨干网络采用跨阶段部分Darknet(CSPdarknet)结构,用C2f模块替代了原来的跨阶段部分(CSP)模块,以改善梯度流动。此外,骨干网络的末端使用了快速空间金字塔池化(SPPF)模块,将特征图池化为固定大小,以适应不同的输出维度。颈部网络采用PAN-FPN结构,构建了同时具备自上而下和自下而上路径的网络,从而有效融合多尺度信息。检测头采用解耦设计,包含两个独立的分支,分别用于目标分类和边界框回归预测。每个任务采用不同的损失函数:分类任务使用二元交叉熵(BCE)损失,回归任务使用分布焦点损失(DFL Loss)和完全交并比损失(CIOU Loss)。
为解决 YOLOv8 在检测小目标和多尺度目标时面临的挑战,我们基于 YOLOv8n 提出了一种优化的检测模型 ——SMA-YOLO ,该模型专门针对遥感影像的特定需求而设计。详细的网络结构如下图 所示,各改进模块概述如下。
非语义稀疏注意力机制
受ViT的启发,注意力机制使模型能够聚焦于图像中不同位置(或补丁)之间的关系,从而捕捉图像内部的空间依赖性。然而,这种机制也可能导致模型过度强调语义信息。具体而言,在全局交互过程中,模型会综合考虑图像所有区域的特征(如颜色和形状),以全面理解整体内容。但这种方式可能会忽略非语义信息的局部不一致性,使得模型难以有效处理精细细节或复杂的局部变化。
为提高模型对小目标的敏感性,并高效提取和处理与任务相关的非语义特征(尤其关注局部几何和纹理模式),我们在骨干网络中引入了 NSSA 机制,如下图 所示。
双向多分支辅助特征金字塔网络
原始YOLOv8网络采用路径聚合网络(PAN-FPN)作为颈部结构,该结构沿自下而上和自上而下两条路径进行双向特征聚合。这种设计使得较深层网络能够捕捉语义特征,而较浅层网络则对图像细节产生响应。这种双向信息流设计有助于实现低层信息与高层信息的融合,有效缩短了两者之间的信息传递路径。在升采样和降采样过程中,相同维度的特征会进行堆叠处理,以保留小目标的特征信息。 然而,对于小目标(尤其是像素级分辨率的小目标)而言,其特征图通常具有较低的空间分辨率,这限制了用于精确目标检测的几何信息获取,无法充分满足对位置信息的需求。另一方面,该结构的特征复用率较低,在经过长路径的升采样和降采样后,原始特征中的部分信息容易丢失。
为解决上述问题,同时提升对低分辨率小目标的检测性能及多维度特征融合效果,本文提出了BIMA-FPN特征金字塔网络,其结构如图1的颈部部分所示。
首先,我们引入了一个更高分辨率(160×160像素)的检测头,它通过利用低层特征层来提升模型检测小目标的性能。为了降低计算量,我们还移除了针对大目标的检测分支。 此外,我们融入了六个步长为1、核大小为1的CBS模块,它们充当容器来存储主干网络的特征信息。这些容器为后续网络层提供了主干网络特征信息的新输入流,有效地聚合了浅层特征图(分辨率低但语义信息弱)和深层特征图(分辨率高但语义信息丰富)。这种聚合捕捉了多尺度特征信息,解决了与参数过度增加、模型臃肿、梯度消失以及特征退化相关的问题。
在特征融合过程中,我们还提出了一个语义细节融合模块,其目的是有效捕捉局部细节和纹理信息,以进一步提高检测性能。该结构如下图所示。
通道 - 空间特征融合自适应头
为进一步提升特征的尺度不变性和目标检测能力,我们对YOLOv8的检测头进行了改进。本研究提出了一种名为CSFA - Head的机制,该机制受ASFF策略启发,能动态学习每个尺度特征图的融合权重,将不同尺度的特征层调整到统一尺寸,并对它们进行自适应融合,如下图所示。
PART/4
新算法框架解析
数据集和实现细节
我们使用VisDrone2019数据集来评估模型的性能。该数据集包含从无人机在不同角度和任务下拍摄的真实世界图像,具有广泛的尺度变化和丰富的小目标特征,如下图所示。
数据集涵盖10个类别,包括行人、人群、自行车、汽车、厢式货车、卡车、三轮车、带篷三轮车、公共汽车和摩托车。训练集包含6471张图像,验证集包含548张图像,测试集包含1610张图像。值得注意的是,该数据集存在类别不平衡问题,且包含小目标。根据COCO标准,目标被分为小、中、大三种尺寸。具体来说,边界框面积小于32×32像素的目标被归类为小目标,面积在32×32到96×96像素之间的目标被归类为中目标,大于96×96像素的目标被归类为大目标。
表中呈现的实验结果表明,应用于基准模型的每一种增强策略都在不同程度上提升了识别性能。具体而言,非语义稀疏注意力机制的引入使mAP@0.5提高了1.3%,增强了模型的局部表征能力,使其能更关注图像中的非语义信息。在添加BIMA - FPN后,mAP@0.5和AP_small都有显著提升。这归因于添加了小目标检测头、双向多分支辅助特征金字塔网络以及语义细节融合模块。为了更好地说明SDF模块和更高分辨率(160×160像素)检测头的作用,提供了详细分析,如下表所示。
在对YOLOv8进行优化之前,该模型对小目标和极小目标的关注不足。这主要是由于这些目标分布密集以及环境复杂,导致对远处目标的敏感性降低。经过优化后,模型对这些目标的关注度显著提高,增强了其检测小目标的能力,并减轻了外部背景元素的影响,在性能上呈现出明显的对比。
在第一张图像中,YOLOv8n模型错误地将一个负样本检测为“行人”。对于像素级的小目标,YOLOv8难以聚焦于大尺度特征图,这导致位置信息不足,检测质量较低。改进后的模型有效避免了这一问题。然而,在密集目标场景中,改进后的模型仍面临显著挑战,会出现一些误检情况。从像素信息的角度来看,卡车和公共汽车的像素信息看似相似,这可能会导致潜在的误识别。该模型在检测低分辨率和远距离目标方面也表现不佳,尤其是在存在大规模背景干扰的场景中。为解决这些问题,未来的研究将进一步提升模型的多尺度特征融合和背景抑制能力,并考虑引入多视角融合策略,以提高模型的鲁棒性和检测精度。在第二张图像中,改进后的模型在“行人”类别上显著减少了假阴性;同时也能看出,改进后的SMA - YOLO算法比基准模型更能检测到低可见度的目标。这证明了我们的模型在小目标被遮挡或重叠时,仍能有效检测小目标。第三和第四张图像突出显示了基准模型未能检测到的“船舶”和“飞机”目标,进一步证明了我们方法的优势。我们的算法在复杂和简单环境中都能实现出色的检测精度,同时保持较低的计算成本,这对于目标检测的广泛应用具有明显的实际意义。结果清楚地表明,与YOLOv8n相比,我们的方法有效减少了假阴性和假阳性,在各种复杂场景中都表现出显著的优越性和鲁棒性。
有相关需求的你可以联系我们!
来源:小贾科技论