摘要:传统铸件飞边检测依赖大量数据,但工厂数据获取困难且保密。北方民族大学团队提出基于DETR网络的小样本检测新方法,仅需3-30个样本即可实现高精度检测,为工业自动化注入“智能新动力”!
导读
传统铸件飞边检测依赖大量数据,但工厂数据获取困难且保密。北方民族大学团队提出基于DETR网络的小样本检测新方法,仅需3-30个样本即可实现高精度检测,为工业自动化注入“智能新动力”!
在铸造生产中,人力需求大且环境恶劣,机器人自动化成为关键问题,视觉识别是核心。铸件识别方法主要有激光传感器和深度学习两种。激光传感器虽精度高,但成本高且应用价值低。深度学习方法在数据充足时表现好,但铸件数据保密导致样本采集困难。
为解决小样本问题,采用度量学习、迁移学习、数据增强和元学习方法。ZHANG G J等提出基于深度度量学习的CenterNet网络改进,杜芸彦等提出基于负边距损失的小样本目标检测方法,LI A X等提出变换不变性方法解决数据增强问题,窦智等提出小样本驱动的训练样本生成方法,增强网络特征提取能力。
针对铸件飞边数据局限性,本研究提出基于DETR的小样本检测网络,设计内嵌坐标注意力的金字塔特征融合网络,解决图像特征和位置信息失衡问题,并通过注意力提升模型对显著区域的关注度。引入二维图像相对位置编码改进自注意力结构,使用Smooth-L1优化损失函数,提高检测精度,为机器人自动化检测提供参考。
【研究方法及内容】
提出基于DETR的小样本铸件飞边检测网络,采用ResNet-101作为特征提取网络,包含特征提取、编解码和分类回归模块。引入内嵌坐标注意力的金字塔特征融合网络和相对位置信息,优化损失函数为Smooth-L1+GIoU。特征提取网络通过ResNet-101提取特征信息,加入位置信息后进行编码和解码,最后通过全连接操作得到预测结果。改进算法在特征提取网络中加入内嵌坐标注意力的金字塔特征融合网络,引入相对位置信息,优化损失函数。
图1改进DETR网络结构图
为解决图像特征信息和位置信息不平衡问题,重新设计特征提取网络,选择自下而上的3个尺度特征进行融合。ResNet-101的第2~4模块加入内嵌坐标注意力的金字塔特征融合网络,具体结构见图2。conv1和conv5不进行改进,特征学习器主要对输入图片进行特征提取。
图2Conv-FCA模块
将坐标注意力嵌入特征融合网络,根据特征信息重要程度进行权重分配,提高模型泛化能力。坐标注意力机制分为两个并行阶段,通过平均池化和堆叠操作,利用1×1卷积调整通道数,最后与原特征相乘。
图3坐标注意力结构图
DETR网络使用绝对位置编码,但受长度限制且对平移不变性模式识别能力弱。引入二维图像相对位置编码,通过分段函数h(x)索引相对距离,计算二维相对位置和相对权值。
图4改进后self-attention结构图
使用Smooth-L1优化损失函数,结合GIoU损失函数,定义GIoU损失函数取值范围为[-1,1]。引入Smooth-L1优化原损失函数,将GIoU+Smooth-L1作为新的回归损失函数。
试验在戴尔服务器上进行,具体配置为:GPU型号为Tesla P40 GPU,96 GB显存,内存为40 TB,软件操作系统为Ubuntu18.04,Python版本为3.7,并通过CUDA 10.1进行加速。试验使用PASCAL VOC 2007+2012的训练验证集,以及实验室自制铸件飞边数据集,每个数据集均包含基类(支持集)和新类(查询集)。选用PASCALVOC数据集中的15个类别作为基础训练阶段的数据集,铸件飞边作为新类数据集。自制铸件飞边数据集由工厂实地拍摄和3D模型打印两部分构成,共90张,实地拍摄照片与3D模型打印照片数量比为9∶1。从自制的数据集中分别选取3、5、10和30个飞边实例,即飞边训练集设置为3、5、10和30 shot,作为新类训练集。飞边包含条状飞边、方形飞边、连续圆形飞边、非连续圆形飞边和3D打印飞边5种类型,见图5。
图5飞边缺陷样本图像
使用LabelImgb标注软件对铸件飞边进行标注,对于连续圆形飞边和非连续圆形飞边的具体标注方式见图6。在图6中,由于前景对象遮挡,造成非连续圆形飞边现象,该情况标注方式见方框1和方框2,连续圆形飞边标注方式见方框3和方框4。所以当飞边是完整且连续的圆形时,只对最近端进行标注。当圆形飞边出现断接情况时,则进行多次标注。
图6圆形飞边标注示意图
【图文结果 】
使用检测精度(AP)和查准率(P)作为评价指标,通过多组消融试验验证模型改进策略的有效性。首先在PASCAL VOC的15个类别上进行基类预训练,随后用铸件飞边数据进行微调。试验分为4种情况,分别用3、5、10和30 shot进行训练。微调新类数据前,对DETR模型进行初始化并调整学习率等参数。预训练阶段采用AdamW优化器,学习率初始为2×10−4,权值为1×10−4,批大小为32,迭代250个epoch,学习率在100和200 epoch时各衰减10%。微调阶段参数设置与预训练相同。
为评估改进策略对算法的影响,进行了消融试验,试验设置为10 shot。结果见表1。加入注意力特征加权融合模块(DETR+FCA)显著提高了检测精度,mAP提升了9.62%。引入基于FPN的多尺度特征融合结构(DETR+FPN)也提高了精度,但比DETR+FCA低1.83%。仅加入相对位置编码模块(DETR+R)使mAP提高了4.72%。结合相对位置编码和Smooth-L1损失函数优化(DETR+R+GS)进一步提升了mAP。改进网络的mAP值为66.00%,比原模型提高了9.69%。
消融试验显示改进模块间相互增益,改进算法在少量样本下提高检测精度。通过选取测试集中的非连续圆形飞边图片,对比原模型和改进模型的特征图可视化结果,如图7所示。图中不规则区域显示模型关注目标,颜色深浅反映关注度。改进模型减少了误检并增强了对飞边目标的全局关注度。
图7特征图可视化对比试验
为验证算法有效性,进行了试验对比分析。采用Faster RCNN模型,主干网络为ResNet-101。评价指标包括检测精度和查准率。结果显示,在3 shot设置下,本算法精度为47.50%,比Meta R-CNN高46.30%,查准率高23.98%。在5 shot设置下,精度达54.06%,比TIP高35.45%,查准率高22.23%。在10 shot设置下,算法精度和查准率分别比Meta R-CNN高31.32%和22.54%。在30 shot设置下,AP值和查准率分别比MPSR算法高36.33%和28.63%。综合AP值和查准率,本算法检测精度优于其他方法。
在铸件清理中,工作环境复杂多变,尤其在飞边清理时会产生强光污染。通常,不切割打磨时,光线较弱。图8展示了工厂环境下的检测结果。强光下,本研究算法能检测出小且特征不明显的飞边。复杂背景下,尽管存在大面积遮挡,本算法仍能成功检出飞边。弱光环境下,铸件颜色深褐色,特征信息不明显,但算法未发生漏检。
图8模型检测效果展示
【研究结论】
(1)提出坐标注意力加权特征融合网络,使模型能更好地平衡图像特征信息和位置信息,并通过坐标注意力对不同重要程度的特征信息分配不同的权重。
(2)在自注意力结构中加入相对位置编码,使其可处理变长的输入数列,增强对平移不变性的模式识别能力。
(3)使用Smooth-L1优化损失函数,提高模型的检测精度。试验结果表明,改进算法在试验设置为3、5、10和30 shot时,检测精度分别为47.50%、54.06%、66.00%和 79.32%,均高于其他模型。
【文章来源】
本文系发表于2025年第45卷第2期特种铸造及有色合金上的文章,文章题目为“ 基于DETR网络的小样本铸件飞边检测研究”。
来源:特铸杂志