摘要:无人机(UAV)拍摄图像的目标精准识别是海上救援和海事监视的前提。然而,无人机拍摄图像面临多项挑战,例如复杂的海面背景、目标尺寸微小以及场景密集等问题。
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
Column of Computer Vision Institute
无人机(UAV)拍摄图像的目标精准识别是海上救援和海事监视的前提。然而,无人机拍摄图像面临多项挑战,例如复杂的海面背景、目标尺寸微小以及场景密集等问题。
PART/1
概述
为降低这些挑战对目标识别的影响,我们提出了一种高效的海上救援网络(EMR-YOLO),用于识别无人机拍摄的图像。在该网络中,首先通过膨胀重参数块(DilatedReparamBlock)设计了DRC2f(基于膨胀重参数的通道到像素)模块,以有效扩大感受野、减少参数数量并提升特征提取能力。其次,采用ADOWN下采样模块来缓解细粒度信息丢失问题,从而提高模型的效率和性能。最后,通过融合坐标注意力(CoordinateAttention,CA)和快速空间金字塔池化(SpatialPyramidPoolingFast,SPPF),设计了CASPPF(基于坐标注意力的快速空间金字塔池化)模块,该模块有效增强了特征表示和空间信息整合能力,使模型在处理复杂场景时更加准确和鲁棒。在AFO数据集上的实验结果表明,与YOLOv8s网络相比,EMR-YOLO网络的平均精度均值(mAP)和mAP50分别提升了4.7%和9.2%,同时参数数量和计算量分别减少了22.5%和18.7%。总体而言,利用无人机拍摄图像并结合深度学习进行海上目标识别,可提高海上救援和监视的效率与安全性。
PART/2
背景
海上运输是全球最重要的运输方式之一。根据联合国贸易和发展会议(UNCTAD,https://unctad.org/rmt2022,访问于2024年4月24日)的数据,2021年全球约80%的产品贸易通过海运完成。由于海上活动的高频性,海上事故难以避免。欧洲海事安全局(EMSA)在其《2023年海上伤亡事故年度概述》中指出,2022年共发生2510起海上伤亡事故,造成597人受伤。海上事故对国家经济发展、海洋生态系统和船员生命均产生严重影响,导致重大财产损失和人员伤亡。因此,研发海上救援识别技术对于监测海上船舶、及时发现落水人员以降低海上事故的影响至关重要。
近年来,众多研究人员已采用深度学习技术进行海上目标识别。然而,将海上目标识别算法应用于无人机时可能面临以下问题:首先,在真实海洋环境中,常出现海雾、夜间低光照和曝光过度等复杂情况,导致图像模糊或失真;其次,无人机飞行高度较高,所拍摄图像中存在大量小目标,且目标特征类型单一;第三,无人机内部存储空间和计算资源有限,可能导致模型部署困难、实时处理能力不足等问题。因此,本研究聚焦于如何将先进的目标识别算法与技术应用于海上无人机,以提高海上救援的准确性和效率,为其提供更可靠的支持。
传统目标识别算法因识别流程繁琐严重影响效率,逐渐淡出主流应用领域。基于深度学习的目标识别算法则逐渐展现出优势,其中YOLO系列作为单阶段目标识别的典型代表,凭借实时识别、参数少、计算量小等特点,被广泛应用于无人机目标识别。本文提出一种YOLOv8模型的改进版本——EMR-YOLO,其精度和识别速度均优于原始YOLOv8s模型,非常适合检测无人机拍摄图像中的目标。
为实现海上救援和海事监视场景下无人机图像的高效目标识别,本研究的贡献如下:
1.提出EMR-YOLO作为海上救援的目标识别方法。实验结果表明,该方法的性能优于现有的先进方法。
2.在提出的网络中,通过使用膨胀重参数块改进主干网络的C2f模块来设计DRC2f模块,以便更好地捕捉全局信息并增强特征提取能力。
3.使用ADOWN下采样模块获取浅层特征信息,从而更完整地提取特征信息。
4.为避免特征信息丢失,通过融合坐标注意力(CA)和快速空间金字塔池化(SPPF)来设计CASPPF,这有效地增强了不同层级特征的信息融合,使模型在处理复杂场景时更加准确。
YOLOV8是YOLOv5的增强迭代版本,由Ultralytics于2023年1月公开发布(https://github.com/ultralytics/ultralytics,访问于2024年6月20日)。YOLOv8基于网络深度和宽度有五个版本:YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。为了在准确性和模型大小之间取得平衡,在本文中,YOLOv8s作为检测海上无人机获取图像的基线模型。
在上图中,展示了YOLOv8的网络架构。在将输入图像调整大小为640×640×3的数据预处理之后,对图像进行数据增强。该网络分为三个主要部分:主干、颈部和检测头。
骨干网络:作为其骨干网络,YOLOv8使用了Darknet-53。对输入特征图进行五次下采样,以生成从P1到P5的五个不同尺度的特征。相较于YOLOv5的C3结构和YOLOv7的ELAN结构,YOLOv8开发了一种新颖的C2f结构。这使得不同尺度的特征能够融合,从而提升了网络对特征的表示能力,并丰富了梯度流信息。CBS模块对输入信息应用卷积、BN和SiLU激活函数操作,以获得输出结果。
颈部网络:为了建立骨干网络与颈部的连接,颈部网络采用空间金字塔快速池化(SPPF)模块,将不同大小的特征图转换为大小一致的特征向量。与空间金字塔池化(SPP)结构相比,SPPF通过逐步连接三个最大的池化层,减少了计算量并提高了速度。同时,为了提升模型的识别性能,颈部部分采用了PANet架构,增强了网络融合不同尺度目标特征的能力,并用于传播特征信息和合并不同层级的特征。
头部网络:检测和分类采用解耦头结构进行分离。此外,无锚点(Anchor-Free)算法取代了之前的基于锚点(Anchor-Based)的算法,这在不降低精度的情况下显著减少了计算时间并提高了速度。
PART/3
新算法框架解析
本节全面讨论了高效海上救援识别(EMR-YOLO)方法。
上图展示了EMR-YOLO的网络结构图。首先,为了提高特征提取能力并捕捉全局信息,我们使用空洞重参数化模块对模型主干中的C2f模块进行改进。随后,将网络构建中使用的下采样方法从卷积模块改为Adown,以减少因下采样导致的信息丢失问题。此外,将CA注意力机制集成到SPPF模块中,该机制可以抑制特征图中的背景信息,有效增强识别能力,提高识别的准确性和鲁棒性。这些改进提高了无人机拍摄图像中海上救援识别的精度。实验结果表明,与YOLOv8s相比,EMR-YOLO的mAP50提高了9.2%。
DRC2f
YOLOv8的C2f模块由瓶颈层(Bottleneck)和CBS组成,存在计算冗余和特征提取不足的问题。为解决这些问题,本文利用空洞重参数化模块(DilatedReparamBlock)对C2f模块的瓶颈层进行改进,设计了一种精确且轻量级的特征提取模块DRC2f,如下图a所示。
该模块实现了轻量化设计,并获得了良好的特征提取能力。在减少参数数量的同时可以扩大感受野,从而更好地捕捉输入数据的全局信息,同时提高模型的精度。
DR模块由一个卷积层和一个扩张重参数化模块层组成,如上图b所示。扩张重参数化模块的工作原理如下图所示。
UniRepLKNet网络的扩张重参数化模块(DilatedReparamBlock)结合了扩张卷积和重参数化技术,将一个大的非扩张卷积核分解为一个较小的非扩张核和几个较小的扩张核。首先,通过扩张率使用扩张卷积,这有助于捕捉稀疏特征并生成更高质量的特征。卷积核的感受野被扩大,以捕捉更广泛的上下文信息。其次,实施重参数化过程,对卷积输出进行非线性变换,提供补充参数和非线性函数。这种方法的目的是增强模型的表达能力,并提升其捕捉输入特征的能力。
Adown
下采样在目标识别中至关重要,因为它在保留重要特征信息的同时减小了特征图的大小。此外,下采样降低了计算负荷和参数数量,从而加快了网络的训练和推理过程。在YOLOv8网络中,卷积(Conv)用于下采样,这在减小特征图大小的同时导致了细粒度信息的丢失。本研究中的海上救援数据集包含大量小目标且缺乏冗余信息,因此细粒度信息的丢失将显著影响模型的检测性能。因此,我们采用来自YOLOv9项目的Adown下采样模块来改进YOLOv8,如图2中EMR-YOLO结构图所示。Adown模块的结构如下图所示。
首先,使用平均池化对输入特征图进行下采样,将其尺寸减半。下采样后,特征图沿通道维度被划分为x1和x2两部分。然后,对x1应用3×3卷积操作,以提取特征并对特征图进行降维。对x2应用最大池化和1×1逐点卷积,以增加非线性特征表示并进一步降维。最后,将卷积后的两个部分特征图连接在一起,生成ADown模块的输出。
与标准卷积下采样不同,ADown模块在下采样过程中结合了最大池化和平均池化,能够更全面地提取特征信息。此外,ADown模块采用多分支结构,增强了网络的灵活性,同时能更好地获取不同尺度的特征数据。这种多样化的下采样方法有助于提升模型的表征能力。
卷积注意力空间金字塔池化特征模块(CASPPF)
空间金字塔池化特征模块(SPPF)的功能是通过将三个5×5大小的最大池化层的输出拼接在一起来获取多尺度特征。这个过程可能会导致信息丢失,特别是考虑到无人机检测到的海上目标尺寸较小以及环境变化的复杂性,这可能使得难以准确地对目标进行定位。为了提高模型的识别和定位能力,并防止深度网络在输入处理过程中丢失目标特征信息,如下图所示,将卷积注意力(CA)模块整合到空间金字塔池化特征模块(SPPF)中。
CA模块通过将空间位置信息嵌入到通道信息中,来改进特征表示,使网络能够充分考虑特征图通道与空间位置之间的关系,在融合过程中自适应地调整每个特征的重要性,并忽略无关背景信息的干扰。与仅关注通道信息的SE和ECA注意力机制相比,在SPPF模块中引入CA注意力机制有效地兼顾了空间和通道信息,以提高目标识别的准确性和鲁棒性。添加了CA注意力机制的CASPPF模块能够以较低的计算成本获得更高的性能。下图描绘了CA模块的配置。
PART/4
实验及可视化
本文采用AFO数据集作为海上救援数据集。该数据集包含3647张图像和39991个标注对象,所有数据均来自50个由无人机(UAV)拍摄的视频片段,分辨率范围从1280×720到3840×2160。训练集包含数据集中67.4%的对象,验证集包含13.48%的对象,测试集包含19.12%的对象。目标类别包含六类:人员、冲浪板、小艇、浮标、帆船和皮划艇。为防止模型过拟合,测试集图像由未在训练集和验证集中使用的视频帧组成。
上图展示了训练集的基本信息,分为四个部分:左上角为类别数量,左下角为目标中心点在图像中的位置,右上角为目标框的大小,右下角为目标相对于原始图像的宽高比。该数据集包含大量拥挤图像和大量小目标,且类别分布不均匀。
为了进一步验证识别性能,使用YOLOv8s和EMR-YOLO模型在测试数据集上进行了实验。识别结果如下图所示。
基于图100中的观察结果可以得出,EMR-YOLO在准确识别无人机图像中的海上目标方面优于YOLOv8s,特别是在存在相似或小目标的情况下。如上图所示,对EMR-YOLO和YOLOv8s在检测无人机图像中海上目标的识别性能进行了比较。当海上目标较小时,图像中显示的特征较少,这可能导致YOLOv8s漏识别和误识别,如上图中A行所示。由于无人机拍摄的图像尺寸较小,YOLOv8s出现了漏识别情况。此外,如上图中C行所示,飞行过程中获取的无人机图像可能由于阳光过度照射而在图片中出现海水的白色高光,导致YOLOv8s将背景误识别为人。由于背景的复杂性和目标尺寸较小,在上图中B行所示的图像中,YOLOv8s将人错误地识别为冲浪板。在D行中,YOLOv8s将冲浪板错误地识别为船,将人错误地识别为冲浪板。在E行的图像中,由于图像过度曝光以及移动的船和海浪的重叠,YOLOv8s没有检测到目标。这些结果表明,EMR-YOLO具有较高的准确性、鲁棒性和抗干扰能力,能够有效解决复杂海洋环境中的识别问题。
将YOLOv8s和EMR-YOLO模型输出的特征通过CardCAM热力图进行可视化对比,更直观地展示模型改进前后感兴趣的像素区域和关注程度。颜色越红,表示该区域受到的关注越多。
结果如上图所示,可见YOLOv8s对小目标关注不多,提取能力不如EMR-YOLO。例如,在A行中,YOLOv8s提取了额外的背景信息,而EMR-YOLO模块成功提取到了目标,这表明该模型能够很好地抑制背景噪声,提高小目标检测的准确率。B行和C行的对比表明,在不同光照环境和干扰条件下,EMR-YOLO算法能够更准确地聚焦于目标物体,且聚焦区域更大,这意味着改进后的模型在海上识别时更准确,提升了模型的整体性能。
总体而言,所提出的EMR-YOLO网络是一种高效的无人机海上救援网络,它能够准确、快速地识别海上目标,从而提高海上救援的效率。
有相关需求的你可以联系我们!
来源:小杨科技每日一讲