论文推荐|一种基于改进YOLO v5n的黄桃虫害检测方法

B站影视 日本电影 2025-03-19 02:33 1

摘要:桃是一种具有观赏性的重要经济水果作物,是我国果树产业的组成部分。有很高的营养价值和药用价值,在实现农业增效、农民增收和乡村振兴中发挥了十分重要的作用。而在桃生长过程中,极易受多种虫害影响。因虫害的隐蔽性,以及虫害有世代重叠的现象,导致虫害的治理较为困难。

作者:曾孟佳1,2,31,黄旭1,2,3*

单位:1.湖州师范学院信息工程学院;2.湖州学院电子信息学院;3.湖州市城市多维感知与智能计算重点实验室

简介:曾孟佳,女,湖北荆州人,副教授,在读博士,从事人工智能方法及其应用研究。*通信作者,教授,博士,从事智能计算及其应用研究。

基金项目:教育部人文社会科学一般项目(20YJCZH005);浙江省湖州市工业攻关项目(2018GG29);湖州学院国家级大学生创新创业训练项目。

来源:《安徽农业科学》2025年3期

引文格式:曾孟佳,徐欢,黄旭.一种基于改进YOLO v5n的黄桃虫害检测方法[J].安徽农业科学,2025,53(3):236-242.

OSID开放科学计划

长按识别论文专属二维码,听作者讲述论文写作背景,与同行交流心得体会。

桃是一种具有观赏性的重要经济水果作物,是我国果树产业的组成部分。有很高的营养价值和药用价值,在实现农业增效、农民增收和乡村振兴中发挥了十分重要的作用。而在桃生长过程中,极易受多种虫害影响。因虫害的隐蔽性,以及虫害有世代重叠的现象,导致虫害的治理较为困难。

现阶段,大部分桃园虫害需要通过人工实地调查来检测。但是人工实地勘察虫害所要求的专业性极高,既耗时费力,又易因主观性出错。计算机视觉技术可以在保证准确高效的前提下及时发现虫害,较为客观地进行判断。随着机器学习的拓展,在农业中使用深度学习技术成为首选。近年来,随着AI和边缘计算的融合,高效处理海量的边缘数据,为实现边缘智能(DI)提供了可能性。

基于深度学习的桃虫害算法虽然优于人工,但由于害虫本身的机动性、虫害发生的隐蔽性和世代重叠的现象,使得数据集获取困难,识别难度增大。鉴于此,在轻量化的前提下,针对样本长尾分布、特征提取困难的情况,笔者通过融合RFB结构和BiFPN结构,接受更多的图像信息,在YOLO v5n的基础上进行改进,拟实现改进YOLO v5n桃虫害识别算法。

数据与方法

1.1 数据来源与数据集构建

1.1.1 数据来源。黄桃虫害数据集主要拍摄于湖州一桃园内。整个桃园呈带状分布,种有桃树千余棵,选择不同地点、不同时间采集虫害图片。

由于桃园内定期除虫,导致害虫发现较少;加上部分虫类过小,且虫害发生初期往往具有隐蔽性,难以观测。因此,该研究对可观测到的虫害种类进行研究,采集得到的数据见表1。

1.1.2 数据预处理与数据集构建。拍摄到的虫害数据分辨率高达8192×6144,图像处理效率过于低下。为了提升模型的图像处理效率,先将图片的分辨率统一调整640×640。

在对采集到的数据进行划分时,将不同时期的虫害定义为不同类,最终得到6类虫害;采用数据增广手段扩充数目较少的类别,数据增广手段见图1。

图1 数据增广示例

对数据增广和再分类后的图片使用LabelImg对目标虫害进行标注操作,去除模糊不清的图片。依照上述方法得到虫害数据见表2。

最终整个数据集包含图片2990张,将整个虫害数据集70%的图片划分为训练集,20%为验证集和10%的测试集。

1.2 研究方法

提出了一种改进YOLO v5n的黄桃虫害检测方法。利用RFB的空洞卷积操作,增加模型感受野,提升模型的特征提取能力;将颈部网络结构替换为BiFPN结构,对不同层次的特征图进行特征重结合,改进特征融合的方式;将激活函数更改为ReLU,避免了SiLU在某些硬件环境中不兼容的问题。最后得到1个提取特征能力提升且模型很小的轻量化网络改进YOLO v5n。

黄桃虫害检测网络的实现

2.1 YOLO v5s网络模型

YOLO v5(You Only Look Once version 5)属于单阶段目标检测模型,是基于YOLO v4基础上改进而得,对速度与精度都有较大的提升。在不断研究开发过程中,YOLO v5在原有模型基础上,延展出从1.0~7.1的10个版本。在这10个版本中,1.0~6.0版本都在调整层与层之间的顺序,不断提升准确率。YOLO v5-6.1支持多种格式的导出,YOLO v5-6.2新增了分类功能,YOLO v5-7.0可支持实例分割。因此,选择较为完善且无其余功能的YOLO v5-6.0作为主要研究对象。

在YOLO v5中,根据网络宽度和深度的不同,又可以细分为5个大小不同的模型,即YOLO v5n、YOLO v5s、YOLO v5m、YOLO v5l、YOLO v5x,其相对应模型的模型参数量和模型大小依次提高。在上述5个不同规模的模型中,平衡模型宽度系数、深度系数、权重文件大小、参数量、浮点运算量这5个指标,对这5个不同的模型进行分析(表3)。

由于在生产生活中,常使用边缘设备对黄桃虫害进行推理识别,而边缘设备对模型大小、算子的组成有较高的要求,因此选择权重文件较小、参数量较少的YOLO v5n-6.0(简称YOLO v5n)作为该试验的基础模型。

图2为YOLO v5n的网络结构示意,由主干特征提取网络Backbone、颈部特征融合网络Neck和输出预测端Head组成。其中,主干网络负责从输入图像中提取关键特征;颈部网络主要进行特征融合;预测层则生成含有特征映射的锚框,输出带有检测类别名称和概率的边界框。

图2 YOLO v5n网络结构

YOLO v5n在以往版本的基础上,对一些函数层进行了重构和改进。首先,重构了下采样和通道压缩的Focus层,将操作复杂的slice算子用卷积替换,不仅减少了计算量和参数量,还能拓展了可使用的硬件平台。其次,使用改进的SPPF模块,减少了计算量,加快了计算速度。

2.2 BiFPN特征融合结构

在卷积神经网络中,不同深度的网络对所提取到的目标特征是不同的。一般地,低层的网络由于经过的卷积较少,会包含更多的位置信息;高层的网络经多次卷积所含的语义信息会更多,与浅层特征相比,预测能力更好,但是位置信息和部分小目标信息会丢失。因此需要将提取到的不同特征进行结合。

对于多尺度特征融合,常见的有FPN结构和PAN结构。由图3可知,FPN先对高层信息进行上采样,然后横向将其与低层特征进行连接,使低层信息具有更强的图像语义信息(图3a);PAN在FPN的基础上,新增了自下而上的路径来增强FPN自上而下的路径,缩短了低层信息传输到高层信息的路径,保留了原始Backnone中的特征图与高层丰富的语义特征进行连接(图3b)。

图3 不同特征融合网络对比

原YOLO v5n模型先使用FPN将高层特征的语义信息回传给低层并结合低层的位置信息,再使用PAN将低层的位置信息向上传给高层,在保留空间信息的前提下,产生语义丰富的各层信息。经过这样2个结构融合得到的不同尺寸的特征图都包含图像语义信息和图像位置信息,以实现对不同尺寸图片的预测(图4)。

图4 YOLO v5n特征融合网络

在多尺度特征融合中,不同深度特征图的分辨率是不同的,对特征融合提供的贡献值也不同。FPN和PAN结构都是将上下层特征调整到同一分辨率,再简单拼接,未考虑不同特征对特征融合时的贡献度。为了更好地融合不同的特征,对不同的输入特征有区别的融合,BiFPN根据不同输入特征的重要性,采用加权融合方式快速归一化融合(fast normalized fusion)。

此外,BiFPN网络结构(图5a)显示,不同之处在于:

①删除只有1条输入边的节点。删除没有特征融合的节点,简化双向网络,并减少部分计算量。

②对于原始输入节点和原始输出节点处于同一层的节点,在2节点之间添加1条额外的通路,在不增加太多成本的情况下融合更多的特性。

图5 BiFPN网络结构

由图5b可知,将BiFPN结构与YOLO v5n的特征提取结构相结合,删除了P3、P5层输入的节点,将信息直接同层传递。在高层向低层传递特征时,使用Upsmaple进行升维向低层传递,再用BiFPN的加权融合方式对同层和高层传来的信息进行融合。在低层向高层传递信息时,接受低层节点和同层所有节点传递来的特征信息,使用BiFPN的加权融合方式进行融合传递给上层,最后实现不同尺寸物体的预测。

2.3 多分支空洞卷积RFB

普通网络中,模型的每层只使用1种特征操作(单个卷积或池化),常导致提取出来的特征过于单调。针对以上情况,有学者从人类视觉的角度,模拟人类视觉皮层中的群体感受野(population receptive field),提出了一种新的特征提取模块RFB(receptive field blocks)。一些神经科学指出,在人类视觉皮层中,群体感受野的大小为人的视神经图上的离心率的函数,它有助于突出靠近中心区域的重要性,并提高对微小空间位移的不敏感性。鉴于此,通过在Inception的基础上加入了空洞卷积,该结构有效增大了感受野,加强从轻量级模型中的特征提取,提高其可分辨率和鲁棒性,实现快速准确的检测。

RFB模块由不同大小的多个卷积核和膨胀卷积层来构建。由图6可知,通过多个卷积核配合多分支池,不同分支用大小不同的卷积核模拟不同大小的感受野,用膨胀卷积层(dilated convolution layers)来控制偏心度,并对其进行重塑生成最终的特征,通过模拟感受野大小和偏心度之间的不同,最终得到与人类视觉系统相似的空间阵列。每个分支的内部结构可分为2个元素,即多分支卷积层和后续的多分支池化/膨胀卷积层。在每个分支上,特定卷积核大小的卷积层之后是相应膨胀卷积层,前半部分负责模拟多层大小的群感受野,后面部分复制了人类视觉系统中的群感受野大小和离心率,利用膨胀卷积来模拟pRFs在人类视觉皮层中的偏心度影响。

图6 RFB结构示意

由图7可知,用3种颜色表示3种不同大小的卷积核,其强调了在菊花形状的配置中感受野大小和偏心度之间的关系,在这种配置中,更大的权重被较小的卷积核分配给更靠近中心的位置(比更远的更重要)。最后,将所有分支的特征图拼接在一起,合并成一个空间池或卷积阵列。

图7 RFB示意图

2.4 替换激活函数

为了能够学习、理解非常复杂和非线性的函数,神经网络使用激活函数来引进非线性特征,提升网络的学习能力和表达能力。如果没有激活函数,则网络仅能够表达线性映射,从数据中学习复杂函数映射的能力不强。在模型中,激活函数将神经元的线性不可分数据映射到高维空间中,更好地进行分类或者回归任务,解决线性模型不能解决的问题。

因此,一个好的激活函数往往具有以下特征:

①非线性。引进非线性,通过非线性转换拟合复杂的数据,逼近目标函数。

②高效性。在大规模神经网络中快速计算的能力。

③可微性。让神经网络能够通过反向传播算法有效地更新权重。

原YOLO v5n所用的激活函数为SiLU函数,其图像见图8。

图8 SiLU的函数和导数

SiLU函数具有平滑的曲线,可以很好地处理梯度消失和爆炸等问题;导数相对简单,使得神经网络的训练更加高效。但是由于SiLU函数涉及指数运算,计算复杂度比较高,且当输入过大或过小时,梯度会逐渐趋近于0,导致梯度消失的问题。为了降低计算复杂度,解决梯度消失问题,使用更为简单高效的ReLU函数作为激活函数。ReLU函数图像见图9。

图9 ReLU导数和函数

由图9可知,ReLU函数是1个分段线性函数把所有的负值直接变为0,而正值原样输出,具有非常好的计算性质,使得神经网络的训练更加高效,大大降低了计算复杂度。针对梯度消失问题,当xx>0时,则不存在饱和问题。因此,ReLU函数能够在x>0时保持梯度不衰减,缓解梯度消失问题。此外,ReLU函数的神经元只对少量正刺激进行反馈,刻意屏蔽大量的负刺激,提高了学习的精度,更好更快地提取稀疏特征。

结果与分析

模型训练和测试所用的数据集是自己制作的黄桃虫害数据集。采用操作平台为64位的Ubuntu 21.04系统,网络开发架构为Pytorch 1.8,使用Pycharm集成开发环境,GPU型号为GeForce RTX 3080,显存10G。模型训练的超参数设置见表4。

3.1 评价指标

采用准确率、召回率、平均精度均值(mAP)、每秒检测帧率、平均绝对误差(MAE)、漏检误检率,来衡量算法的性能。一般模型普遍采用准确率、召回率、平均精度值(mAP)来进行性能评估。准确率是指在识别出的物体中,正确的正向预测;召回率是指正确识别出的物体占总物体的比率;平均精度均值综合考虑了精确率和召回率,用于评价模型在所有类别上的好坏。

3.2 消融试验分析

通过消融试验来验证该算法提出的构思对YOLO v5n的优化效果。表5为对YOLO v5n所做的一系列消融试验结果。由表5可知,以YOLO v5n为基础模型,“+”表示模块结构混合改进,“*”表示模块结构重复出现多次。对比试验所用的YOLO v5n的准确率、召回率、平均精度均值、参数量和模型大小分别为82.5%、79.2%、85.2%、4.2G、3.9MB,以此作为参照标准,此后的改进试验均有不同程度的提升。

首先,将颈部网络修改为单层BiFPN结构后,虽然参数量增加了9.5%,但是准确率提高了2.0%,召回率提升了4.0%;当修改为双层BiFPN结构后,准确率提升了0.7%,召回率提升了2.9%,平均精度均值却下降了0.3%,与单层BiFPN结构相比,计算量过多并且检测水平较差,参数量增加了50%,模型大小几乎翻倍。其次,当混合加入RFB模块后,召回率提升了5.0%,平均精度均值也提升了1.7%,而参数量几乎没变,模型大小也只增加了2.56%。此外,由表5可以看出,改进后的模型在准确率、召回率、平均精度均值都有了较大的提升,分别提升了1.6%、6.6%、3.6%,而参数量仅增加了0.5G,模型大小仅多了7.69%。综上所述,将颈部网络更改为单层BiFPN结构,并且混合加入RFB模块的组合改进效果最佳。

3.3 不同算法对比与分析

在试验数据的基础上,将改进YOLO v5n算法与其他主流目标检测算法的性能进行比较,结果见表6。由表6可知,YOLO v7在检测中有最高的准确率,但是改进YOLO v5n有最高的召回率和平均精度均值,模型大小也仅为YOLO v7的6.1%,其余的轻量化网络模型在模型大小方面均比改进YOLO v5n大,且没有改进YOLO v5n的检测效果优异。

结语

通过改进YOLO v5n的颈部特征网络,结合单层BiFPN结构和RFB多分支空洞卷积特征提取层,得到1个检测精度提升及模型大小几乎不变的轻量化网络改进YOLO v5n。采用多分支空洞卷积RFB层,在有效增大模型感受野的同时,提升了模型的特征提取能力。优化后的颈部特征提取网络采用了单层BiFPN构型,简化了模型结构,更好地将浅层特征和深层特征结合在一起,提升了模型的特征融合能力,提高了模型精度。优化后的模型大小与原模型比,增加了0.5G FLOPs的计算量,但是检测速度没有减慢,与此同时提升了检测性能,平均精度均值(mAP0.5)为88.8%,比改进前提高了3.6%;准确率提升至84.1%;召回率提升至85.8%。最终得到的模型大小仅为4.6MB,可以满足大部分硬件平台所需。

更多推荐论文

论文推荐|数字经济·产业集聚与农业高质量发展

论文推荐|贵州省农业碳排放驱动因素与脱钩效应研究

论文推荐|基于MODIS的枣庄市NDVI时空变化特征及驱动因子分析

论文推荐|文旅融合视域下安徽茶类非物质文化遗产的保护与旅游开发

论文推荐|玉米ZmWaxy的生物信息学分析

论文推荐|安徽鸡群鸡滑液囊支原体病流行病学调查与病原分离鉴定

论文推荐|人参果总黄酮的提取及体外抗氧化活性研究

论文推荐|国审大豆新品种菏豆39的亲本系谱·丰产性·稳产性及适应性分析

论文推荐|黄陂湖不同生境植物多样性与群落特征研究

论文推荐|MS-222对异育银鲫麻醉复苏效果及抗氧化酶活性的影响

采编:小白

排版:小同

来源:安徽农业科学

相关推荐