YOLOv8n-SMMP:一种轻量级YOLO森林火灾检测模型

B站影视 欧美电影 2025-10-03 13:38 1

摘要:全球变暖导致森林火灾发生次数显著增加,凸显了及时且准确检测火灾以减轻火灾相关损失的迫切需求。现有森林火灾检测算法在复杂自然环境中捕捉火焰和烟雾特征方面存在局限,且计算复杂度高,轻量化设计不足,难以实际部署。

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

全球变暖导致森林火灾发生次数显著增加,凸显了及时且准确检测火灾以减轻火灾相关损失的迫切需求。现有森林火灾检测算法在复杂自然环境中捕捉火焰和烟雾特征方面存在局限,且计算复杂度高,轻量化设计不足,难以实际部署。

PART/1

概述

为应对这些挑战,本文基于YOLO框架,提出一种增强型森林火灾检测模型YOLOv8n-SMMP(SlimNeck–MCA–MPDIoU–Pruned)。主要创新点包括:引入SlimNeck方案简化颈部网络,用分组洗牌卷积(GSConv)替代传统卷积,并用轻量级基于VoV的分组洗牌跨阶段局部网络(VoV-GSCSP)特征提取模块替代双滤波器交叉卷积(C2f)模块;在颈部和头部网络之间集成多维协作注意力(MCA)机制,以增强对火灾相关区域的关注;采用最小点距离交并比(MPDIoU)损失函数,在训练过程中优化边界框回归;针对改进的网络架构实施选择性通道剪枝。实验结果表明,与基准模型相比,优化后的轻量化模型在检测精度(mAP@0.5)上提升了3.3%,参数数量减少了31%,计算开销降低了33%。这些进展凸显了该模型在森林火灾实时检测中的优越性能,在精度和效率上均优于其他主流轻量化YOLO模型。

PART/2

背景

森林生态系统具有丰富的生物多样性,在水土保持以及地球环境的生态循环中发挥着关键作用。此外,森林对人类社会的日常生产活动不可或缺,因此森林保护对可持续发展至关重要。传统的森林火灾检测方法,如地面巡逻、瞭望塔、远程视频监控、无人机巡检、遥感以及基于传感器的监测等,往往面临维护成本高、响应速度慢以及依赖专业培训等挑战,难以实现高性价比且及时的火灾报警。

计算机视觉的进步为森林火灾监测提供了更直观的方法。基于视觉的检测系统在受保护的森林区域部署专用摄像头,通过图像处理技术分析实时视频流。传统方法依赖人工设计的特征,涉及预处理、特征提取和分类等步骤,以识别可能包含烟雾或火焰的区域。例如,Lin等人提出了一种用于视频序列中智能火灾图像分析的多阶段决策策略。Wei等人通过衡量提取的特征语义信息与未知类别样本视觉信息的匹配程度,来理解视频的整体语义。

尽管取得了一些进展,但挑战仍然存在:森林火灾数据集不完整、动态烟雾和火焰检测困难、模型泛化能力有限、定位精度不足以及处理速度缓慢。为解决这些问题,本文提出了YOLOv8n-SMMP,一种基于YOLOv8的增强型森林火灾检测模型。其贡献总结如下:

通过SlimNeck轻量化设计优化颈部网络,使用GSConv和VoV-GSCSP模块,替代标准卷积和C2f模块,在保持性能的同时降低计算开销;

在颈部和头部网络之间嵌入MCA注意力模块,MCA增强了对包含火焰或烟雾的关键区域的关注;

在训练过程中,用MPDIoU替代完全交并比(CIoU)损失函数,通过更直观的几何方法简化边界框回归,并降低模型计算复杂度;

针对轻量化网络结构制定选择性剪枝策略,在不影响精度的前提下显著压缩模型参数和计算量。

这些创新共同提高了检测精度,加快了处理速度,并便于在边缘设备上部署,提升了早期野火预警能力。

PART/3

新算法框架解析

YOLOv8模型的优化

森林火灾频发于通信网络连接不稳定的偏远地区,传输延迟使得基于云的数据处理不切实际。这就需要在边缘设备上部署实时火灾检测模型,而边缘设备是资源受限的系统,具有计算能力、存储和能效有限的特点。将未压缩的深度学习模型直接部署在这类设备上,会因参数规模过大或计算负载过高而面临失败风险,导致操作低效和存储受限。因此,模型轻量化成为满足森林火灾检测系统实时性需求的关键。作为单阶段目标检测框架,YOLO具有显著的速度优势,非常适合实时应用。YOLOv8在YOLOv3和YOLOv5的设计原则基础上,引入了不同规模的模型簇,以适应多样化的检测需求。为满足边缘部署的轻量化要求,本研究选择YOLOv8系列中最小且计算效率最高的变体YOLOv8n作为优化的基准模型。

图2

图2展示了YOLOv8的架构,它由三个核心组件构成。骨干网络由Conv–批归一化–SiLU(CBS)模块构建,是一种垂直结构,负责从输入图像中提取多尺度特征。CBS模块在图2的顶部子图中以绿色背景突出显示,它集成了三个连续的层:卷积层(Conv)、批归一化(BN)和Sigmoid加权线性单元(SiLU)激活函数。SiLU函数确保梯度平滑流动,缓解训练过程中的梯度消失问题。值得注意的是,C2f模块取代了YOLOv5的C3结构,通过多分支残差连接优化梯度传播。图2的下部子图详细展示了C2f模块内的瓶颈结构。此外,空间金字塔池化快速(SPPF)模块增强了多尺度特征融合,提升了特征表示能力。颈部网络采用分层双向特征金字塔网络结合路径聚合网络(BiFPN-PAN)架构。这种设计通过自上而下和自下而上的路径促进双向跨尺度特征交互,有效融合高层语义信息和低层空间细节,增强多目标检测的鲁棒性。头部网络采用YOLOX的解耦头设计,将分类和回归任务分离。并行预测层处理不同尺度的目标,显著提高收敛效率和检测精度。

SlimNeck结构代表了一种新颖的网络优化技术,其独特的架构设计使其脱颖而出。通过集成GSConv和高效的跨阶段局部网络模块VoV-GSCSP,SlimNeck在显著降低模型复杂度的同时,实现了高性能的特征融合。

图3展示了VoV-GSCSP模块的结构,它是SlimNeck方案的核心组件。VoV-GSCSP模块的工作流程如下:通道数为c1的输入特征被分为两个分支。主分支通过1×1卷积将维度降低至c2/2通道,随后依次经过多个GSBottleneck模块;而捷径分支则直接进行1×1卷积。两个分支的输出沿通道维度拼接,最后通过一次1×1卷积将通道数调整至目标c2。这种设计在降低计算和参数成本的同时保持了模型性能,实现了高效的特征提取。VoV-GSCSP中采用的GSConv是一种轻量级卷积方法,其计算量约为标准卷积(SC)的一半。通过通道洗牌策略,GSConv保留了更丰富的语义信息,在最小化计算成本的同时增强了火焰和烟雾特征的表达能力。

图3

如图4所示,SlimNeck架构将VoV-GSCSP模块与GSConv和GSBottleneck组件集成,形成高效的特征融合网络。采用这种轻量化方案,在增强YOLOv8n模型对森林火灾目标实时识别的检测精度的同时,还能减少模型参数并提高推理速度。通过利用这些模块之间的协同交互,该架构在计算效率和特征表示鲁棒性之间实现了平衡,解决了基于边缘的野火检测系统中的关键挑战。

在森林火灾检测中,火焰、烟雾与背景之间的高相似性,以及目标遮挡、低对比度干扰等问题,使精准识别变得复杂。注意力机制通过动态权重分配增强模型对火点的关注,抑制其他干扰,提高检测精度。MCA是一种高性能、轻量化的注意力模块。其三分支并行架构支持通道(C)、高度(H)、宽度(W)维度间的互补特征交互。其核心在于独特设计,可同时学习这三个维度的互补注意力,几乎无额外计算开销就能提升模型的空间特征感知能力。其形式化数学表达式如公式(1)所示,其中X∈R^C×H×W是输入特征张量,Fw、Fh和Fc分别表示宽度、高度和通道维度上的注意力函数。

如图5所示,MCA结构包含三个分支。最上方的宽度维度分支通过张量重塑来关注火焰等水平延展特征。中间的高度维度分支与宽度分支类似,捕捉烟雾扩散等垂直特征。最下方的通道维度分支保留原始通道结构。MCA的注意力机制包含两个关键部分:挤压和激励变换。挤压变换自适应融合全局平均池化和标准差池化特征,增强特征判别性。激励变换随后确定通道交互覆盖范围,关注大尺寸特征并提升小尺寸感受野,生成精准的注意力权重。在图5最右侧,三个分支的输出通过注意力权重校准,并通过简单平均进行聚合。这一过程自适应调整特征图权重,提高目标定位和识别能力。 2.2.4 引入MPDIoU损失函数

MPDIoU是一种用于比较边界框相似度的新颖方法。它将模型训练过程中的损失计算转化为最小化模型推断边界框与真实标注边界框之间的距离,引导模型更快收敛。在森林火灾检测模型中,MPDIoU损失优化了边界框回归,使模型能更快收敛到准确的检测结果,提升对火焰和烟雾目标的检测精度。MPDIoU的计算步骤如下。本文中,我们使用两个边界框,Box1(预测框)和Box2(真实框),以下是MPDIoU计算过程的示例:

图6

如图6所示,假设有两个边界框,Box1(预测框)和Box2(真实框)。

MPDIoU 提供了比传统 IoU 及其变体更精确的损失度量。通过利用左上角和右下角的坐标考虑几何因素,MPDIoU 简化了损失函数的计算,降低了计算复杂度,并提高了模型对火灾和烟雾目标的检测精度。在本研究中,训练时用 MPDIoU 替代 CIoU 损失,改进了边界框回归,提供了更清晰的几何解释。

增强型YOLOv8n-SMMP模型的架构如图7所示

图7

轻量化颈部网络集成了SlimNeck框架,通过GSConv和VoV-GSCSP模块实现。GSConv替代了传统的卷积层,降低了计算复杂度和参数冗余。VoV-GSCSP模块取代了原始的C2f结构进行特征提取,在最小化推理延迟的同时保持了检测精度。此外,MCA机制集成在颈部和头部网络之间。该模块通过聚合通道、高度和宽度维度的上下文信息来增强特征表示,以可忽略的计算开销显著提高了火焰和烟雾目标的检测精度,尤其是小尺度火点。这些组件的协同集成使模型能够捕捉更丰富的空间-语义特征,在实时野火检测场景中实现了效率与精度的平衡。

模型压缩技术对于在边缘设备上部署复杂模型至关重要,因为它降低了计算和存储需求,使模型能够高效运行。在森林火灾检测场景中,这种高效性可实现火灾的快速识别,为灭火工作节省关键时间。为进一步满足森林火灾检测的实时性要求,适应低算力、低功耗的边缘设备,本文设计了一种改进的通道剪枝技术以进一步压缩模型。

通道剪枝是一种结构化的模型压缩方法,利用批归一化(BN)层的缩放因子r来识别并移除冗余通道。通过将通道选择过程转化为可优化的稀疏性问题,该方法有效简化了模型结构。通道剪枝的一个关键优势在于,其在剪枝过程中能够保持模型结构的完整性,避免了对模型架构进行大规模改动的需求。此外,它不依赖于专用硬件或复杂的软件支持,是一种简单灵活的解决方案,显著降低了模型轻量化相关的技术和实施成本。

图8

图8是通道剪枝的示意图。该过程涉及利用每个通道关联的r值评估其贡献度。r值低于某一阈值的通道被视为冗余通道并被移除,从而简化模型架构。这种方法不仅降低了模型的计算负载,还确保了模型性能不受影响,特别适用于资源受限的环境。

本文设计的剪枝算法流程如图9所示,该算法基于F1范数评估通道的重要性,移除模型的冗余通道,并通过迭代剪枝策略保留关键特征。目标模型包含三个核心组件:本文提出的模型主要由三个核心组件构成。骨干网络充当模型的“眼睛”,通过堆叠的卷积层从输入图像中提取边缘、纹理等基本视觉特征。颈部网络作为特征提取与决策之间的“桥梁”,融合不同层级的特征(例如,浅层的精细细节和深层的语义模式),以增强上下文理解。头部网络扮演“大脑”的角色,做出最终决策。它利用颈部融合后的特征对火焰或烟雾目标进行分类,并通过边界框定位其位置。针对改进后模型的结构特点,本文制定了选择性剪枝策略,重点关注Conv、C2f、SPPF和Detect模块中的卷积层:

骨干网络剪枝:在重复的CBS块中,对冗余的标准卷积层进行剪枝,且不影响特征提取。对于C2f模块,保留瓶颈层中cv1卷积的输出通道,剪枝cv2卷积层。SPPF模块中的cv1和cv2层均进行剪枝;

颈部网络剪枝:构建依赖图,以确保GSConv和VoV-GSCSP模块中跨层拼接操作的通道对齐,维持特征融合的一致性。更新颈部和头部网络之间的MCA注意力层,以保持通道连贯性,确保剪枝后的功能正常;

头部网络剪枝:同步剪枝分类头和回归头中的并行卷积层,以维持任务解耦。

构建依赖图以确保剪枝后模型跨层连接的通道维度一致性,同时对MCA注意力层进行特殊处理,避免剪枝对注意力机制造成破坏。

本文设计的剪枝过程主要分为三个阶段。首先,构建依赖图,用于描述模型各层之间的拓扑关系,以确保剪枝后模型的结构完整性。利用torch_pruning库中的依赖图模块自动分析各层之间的拓扑关系,并保证剪枝后跨层连接的通道维度一致性。然后,评估通道的重要性。本文选择L1范数作为通道的重要性指标,其计算公式如公式(3)所示。

PART/4

新算法框架解析

图10

图10展示了YOLOv8n-SMMP模型训练过程中的损失曲线,横轴为训练轮数,纵轴为损失值。在100次迭代时,训练损失已降至最低,继续训练有过拟合风险。验证集上的边界框损失和分类损失几乎都在100轮时收敛,且100轮后边界框损失呈上升趋势。分布式焦点损失在约70轮时达到最低点,后续训练会使模型的分类损失增大。可见,继续训练可能导致模型过拟合,因此在100轮时停止训练,后续不同条件下的训练迭代轮数均设为100个epoch。训练阶段:图像尺寸(Imgsz)=640,批次大小(batch size)=16,轮数(epochs)=100;微调阶段:图像尺寸(Imgsz)=640,批次大小(batch size)=8,轮数(epochs)=50,EMA衰减率=0.9999。

如上表总结所示,集成所有增强措施的轻量化YOLOv8n-SMMP模型,对火焰和烟雾目标的综合检测精度(mAP@0.5)达到67.5%,模型参数为208万,计算复杂度为5.4 GFLOPs。该模型实现了82.6 FPS的实时推理速度,满足森林火灾检测任务的严格要求。与基准模型YOLOv8n相比,优化后的模型在mAP@0.5上提升了3.3%,同时参数减少了31%(减少了93万),计算负载降低了33%(减少了2.7 GFLOPs)。

上图对基准模型YOLOv8n和优化后的YOLOv8n-SMMP模型在相同森林火灾验证图像上的检测性能进行了定性对比。增强后的模型在识别烟雾和火焰目标时精度更优,尤其对于小尺度火点,其置信度分数显著高于基准模型。例如,在图13的第12张图像中,基准模型因对上下文特征关注不足,将左上角类似火焰的区域误检为火焰(置信度0.4);相比之下,在图14的第12张图像中,YOLOv8n-SMMP利用MCA机制通过跨维度特征判别抑制环境干扰的能力,准确定位了该区域的火焰和烟雾。值得注意的是,在图14的第15张图像中,改进后的模型通过分析纹理模式,正确区分了云与烟雾,烟雾置信度分数达到0.6,而基准模型仅为0.5。这一结果凸显了该模型增强的环境鲁棒性,这得益于MCA模块捕捉判别性空间和通道特征的能力。

尽管优化后的模型有显著改进,但在低对比度条件下的某些检测结果显示置信度分数有所降低(例如,火焰:0.3,烟雾:0.3–0.4)。例如,在图14的左上区域,由于大气散射导致特征边界模糊,模型对大规模烟雾的检测精度有所下降。未来的工作将通过集成自适应感受野模块来增强大规模特征表示,以解决这一局限性。

尽管存在这些边缘案例,YOLOv8n-SMMP在各种场景下仍保持稳健性能。如表3所示,该模型能持续检测大范围火区和细微烟羽,在森林火灾检测任务的mAP@0.5指标上,比其他轻量化YOLO变体高出3.3–5.1个百分点。

为进一步凸显YOLOv8n-SMMP的优势,我们将其与两个近期具有代表性的森林火灾检测模型:YOLO-LFD 和DSS-YOLO进行对比。

上图展示了这三个模型在四个关键参数方面的对比实验结果。DSS-YOLO引入了双流注意力和双向特征融合以提高检测精度,在3.2M参数和7.9 GFLOPs的情况下实现了66.2%的mAP@0.5。然而,其结构复杂性增加了推理延迟,限制了在边缘设备部署的适用性。相比之下,YOLOv8n-SMMP仅用2.08M参数和5.4 GFLOPs就实现了67.5%的mAP@0.5,在精度和效率之间实现了更好的平衡。类似地,YOLO-LFD利用Ghost模块和简化的PANet结构来压缩模型,在2.42M参数下实现了65.3%的mAP@0.5。但YOLOv8n-SMMP在精度和实时速度(82.6 FPS vs. ~70 FPS)上均优于它。这些结果表明,YOLOv8n-SMMP在实现最先进检测性能的同时,显著减小了模型尺寸并降低了计算负担,从而更能满足现实世界中森林火灾监测对低功耗嵌入式设备的需求。

有相关需求的你可以联系我们!

来源:小钱说科技

相关推荐