摘要:基于视觉的空对空多目标跟踪技术是对无人机目标态势感知的关键技术,目前的研究局限于单目标无人机跟踪和通用多目标跟踪算法的迁移运用。针对空对空条件下现有算法对多无人机目标跟踪不准确的问题,提出一种基于分块增强特征提取与局部几何信息关联的级联多目标跟踪算法,将无人机
源自:航空学报
作者:褚昭晨, 宋韬, 金忍, 林德福
注:本文由“人工智能技术与咨询”发布人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······
摘 要
基于视觉的空对空多目标跟踪技术是对无人机目标态势感知的关键技术,目前的研究局限于单目标无人机跟踪和通用多目标跟踪算法的迁移运用。针对空对空条件下现有算法对多无人机目标跟踪不准确的问题,提出一种基于分块增强特征提取与局部几何信息关联的级联多目标跟踪算法,将无人机图像按照机身和机臂特点分块处理,提取目标细粒度形态特征,利用连续时间内目标间相对几何关系变化微小的特性,构建局部区域目标相对几何关系向量,综合上述技术组件设计级联关联算法,提高所提出的算法对无人机目标的检索能力和关联成功率,从而提高算法的跟踪性能。实验表明,在测试集中,所提出的算法相比于目前最先进的多目标跟踪算法OC-SORT算法,身份编号F1值(ID F1 Score, IDF1)提升了5.6%,相比于在通用多目标跟踪领域较优的ByteTrack算法,多目标跟踪准确率(Multiple Object Tracking Accuracy, MOTA)提升了2.7%,实现了对多无人机目标跟踪的最优性能。同时,所提出的算法中用到的技术可应用于SORT、BYTE等数据关联算法中,从而可提高这些关联算法的性能。
无人机, 多目标跟踪, 深度学习, 特征提取, 数据关联
近年来,随着无人机技术快速发展,基于视觉的空对空多无人机目标跟踪成为无人机应用的关键技术。该技术利用视觉图像实现对多无人机目标的实时准确跟踪[1]。在民用航空领域,随着低空空域开放,应用该技术可以有效监控无人机活动,维护空域秩序,提高公共交通安全性和效率[2];在灾害救援领域,应用该技术可以全面检测灾情,为救援行动提供重要数据[3];在军用领域,应用该技术可以对敌方无人机进行有效的军事侦察和打击[4-5]。因此,该技术具有广泛的应用前景。
视觉跟踪方法具有抗干扰能力强、应用成本低、信息丰富等优点,是空对空多无人机目标跟踪的主要技术和研究热点[6],然而,空对空视角下,多无人机目标跟踪本身存在众多难点,例如目标特征近似、相机与目标间存在相对不规则运动、目标特征弱等[7]。目前,很多学者已对无人机视角下通用多目标(如行人、车辆等)跟踪算法进行了较多研究[8-10],但对多无人机目标跟踪的研究相对有限。与通用目标相比,无人机目标尺度更小、运动模式更多样,这对多目标跟踪算法提出了更高的要求。
在无人机视角下通用多目标跟踪算法中,有些方法通过提取目标运动信息或时空特征实现跟踪片段关联[11-13],还有些方法通过设计网络结构来增强算法对目标外观细粒度特征感知能力[14-16]以提高跟踪性能。文献[11]利用目标特征和时空距离进行全局关联,并通过4种后处理方法来提升跟踪性能;文献[12]将Transformer[17]与多目标跟踪算法FairMOT[18]相结合,利用基础特征库和动态特征库建立连续帧时空背景映射关系;文献[13]在目标运动轨迹相对平滑的前提下,设计了基于深度图卷积神经网络的重构-嵌入策略来提取跟踪片段特征。文献[14]设计了一种联合检测与跟踪算法,并设计了一种金字塔Transformer编码器来学习目标规模以感知细粒度特征;文献[15-16]对残差网络进行改进,引入注意力模块增强了网络对微小外观特征的感知能力。
相比于通用目标,无人机目标特征更近似、尺度更小、运动模式更多,目前,国内外针对空对空视角下单无人机目标跟踪,设计了开源数据集作为研究基础[19],部分方法通过提取目标时空特征来提高跟踪性能[20-21]。文献[19]中提供了一个空对空视角下单目标检测与跟踪数据集DUT Anti-UAV,并利用高置信度检测结果实现了无人机跟踪。文献[20]中提出一种在线时间自适应卷积方法来增强空间特征,并采用自适应时间Transformer算法精确调整相似图映射;文献[21]中引入空间局部响应映射和全局响应映射以自适应学习目标可信时空特征。
现有对空对空视角下多无人机目标跟踪算法的研究主要集中在设计数据集和将通用跟踪算法迁移到无人机跟踪领域运用层面,文献[6]中提供了一个名为UAVSwarm的空对空多无人机目标跟踪数据集,并对2个最先进的通用多目标跟踪算法GNMOT[22]和ByteTrack[23]进行了性能验证。结果表明,通用多目标跟踪算法迁移到无人机跟踪领域时,性能均出现大幅下降,目前主要原因为:① 目标特征相似,现有特征提取组件难以提取目标细节特征,算法利用外观特征进行目标索引时准确率低,目标身份切换频繁;② 无人机相机与目标存在相对运动,目标在图像坐标系下轨迹变化无规律,现有多目标跟踪关联算法对该类目标关联成功率低,多无人机目标跟踪准确率低。因此需针对无人机特性设计新的多目标跟踪算法。
本文针对空对空多目标无人机跟踪不准确问题,提出一种基于分块增强特征提取与局部几何信息关联的级联多目标跟踪算法。该算法首先利用无人机本身的形态特点,设计了分块增强特征提取组件来提取无人机目标细粒度形态特征。其次,设计了局部几何信息关联方法,利用无人机运动过程中与周边目标几何关系在短时间内变化微小的特性,降低无人机相机与目标相对运动对跟踪过程中数据关联的影响。最后,构建基于分块特征增强与局部几何信息关联的级联数据关联框架,改进了最新通用多目标跟踪算法ByteTrack,形成针对空对空视角下无人机特性的多目标跟踪算法。该算法与技术在无人机集群编队、无人机邮政、反无人机和蜂群无人机对抗等领域具有广泛的应用前景。
本文主要贡献包括以下3个方面:
1) 针对无人机目标特征近似、现有算法难以提取细粒度特征、目标检索成功率低的问题,设计分块增强特征提取组件,提取无人机细粒度形态特征,提高算法检索成功率,降低目标身份切换次数。
2) 针对无人机相机与目标间存在相对运动、图像坐标系下目标运动无规律、现有算法关联成功率低的问题,设计局部几何信息关联算法,降低相机与目标间相对运动对检测结果和跟踪片段关联的影响,提高关联成功率。
3) 综合上述2种方法,设计了一种新的基于分块特征增强与局部几何信息关联的级联数据关联框架,并在此基础上对ByteTrack方法进行改进,改进后的算法在开源无人机跟踪数据集MOT-FLY和DUT Anti-UAV Tracking上均取得最优性能。
1 基于分块增强特征提取与局部几何信息关联的多目标无人机跟踪算法
目前基于深度学习的多目标跟踪算法可分为2种范式:检测后跟踪(Tracking by Detection)和联合检测与跟踪(Joint Detection and Tracking)[24]。检测后跟踪范式首先利用检测器定位输入图像中的目标位置,然后应用包括目标外观特征提取组件在内的其他组件来提取目标特征,采用数据关联算法实现连续帧间目标关联与身份编号赋予,该范式将目标检测与特征提取视为2个独立任务,每个任务都需要消耗计算资源。联合检测与跟踪范式是在一个模型中同时实现目标检测与目标特征提取,无需独立的特征提取组件,可直接应用单模型输出结果进行数据关联。
多目标跟踪范式常用数据关联方法为:采用检测组件获取视频序列每一帧目标位置,在第1帧中将检测目标初始化为跟踪片段,在随后的帧中采用卡尔曼滤波算法修正跟踪片段位置,计算每一帧检测目标边界框与跟踪片段边界框交并比距离和外观特征间余弦距离,构建代价矩阵,利用匈牙利匹配算法将检测目标与跟踪片段关联,赋予检测目标身份编号。
近年来,随着目标检测器迅速发展,检测后跟踪范式跟踪器通常可以获得更好的跟踪性能,并常在公共数据集上取得最优结果。同时,随着机载算力进步与轻量化网络技术发展,现在该范式可以在机载计算机上实时推断。考虑到实际应用时算法对多无人机目标跟踪准确率的需求,因此检测后跟踪范式跟踪器是更好的选择。
下面首先描述多目标跟踪算法整体框架,接着分别说明基于分块增强的特征提取(Block Enhancement Feature Extraction,BEFE)组件、无人机局部几何信息关联(Local Geometric Association, LGA)算法和基于分块特征增强与局部几何信息关联的级联数据关联框架(Block Enhancement and Local Geometric Cascade Association, BELGCA)。所提供的2种算法与关联框架可应用于多种多目标跟踪器中,可有效提高对无人机目标的跟踪性能。
1.1 算法整体框架
基于分块特征增强与局部几何信息关联的多无人机目标跟踪算法框架如图1所示,所提出的算法对目前较优的通用多目标跟踪算法ByteTrack进行改进,需要强调的是,所提供的2种方法同样可应用在包括DeepSORT[25]在内的多种算法中。整个算法框架可以分为以下步骤。
图 1 基于分块特征增强与局部几何信息关联的多无人机目标跟踪算法框架
步骤1 目标检测:采用目标检测器定位图像中目标位置。步骤2 目标特征提取:在检测到目标后,采用分块增强特征提取组件,提取包含形态信息的目标细粒度外观特征,并根据目标位置构建目标几何关系特征。步骤3 数据关联:将检测结果分为高分检测和低分检测,采用卡尔曼滤波预测跟踪目标在当前帧的位置,计算高分检测结果与跟踪目标边界框交并比和外观特征相似度,构建代价矩阵,采用匈牙利匹配算法进行关联。对于未关联上的高分检测结果和跟踪片段,采用局部几何信息关联算法对其进行关联,若此时还有未关联上的跟踪片段,将低分检测结果与其进行关联,初始化未关联的高分检测结果作为新跟踪片段。
1.2 基于分块增强的无人机目标特征提取组件
下面设计分块增强特征提取组件来提取目标细粒度形态特征。观察无人机形态,发现其机臂安装于机身两侧,且机身轴距一般大于机身高度。在图像中,目标机身多分布于边界框中心区域,且占比较大,机身区域背景较少,包含大量无人机前景信息;旋翼和机臂多分布于边界框两侧,且占比相对较小,机臂区域大部分是背景,不同类型目标机臂形态和结构不同,该区域可以体现无人机部分结构特征。DUT Anti-UAV Tracking数据集中无人机尺寸数据和部分视频序列中无人机图像如图2所示,该数据集中大部分目标宽高比大于1,这是因为在空对空视角下,无人机目标多处于近似平视状态和俯仰角较小的俯视或仰视状态,此时无人机形态特征相对明显。利用无人机形态特点,将目标按机身和机臂区域分块拆分,对不同区域特征进行增强,设计分块增强模块。
图 2 DUT Anti-UAV Tracking数据集无人机目标宽高比统计与近似平视视角无人机目标样例
先采用在特征提取领域表现较优的ResNet模型提取目标特征图,再将特征图沿宽度方向拆分为机身左侧、机身、机身右侧3块。考虑到Transformer算法在图像处理领域表现突出,但其整个编解码模型参数过多,不利于实际推断,因此仅应用其中核心部分查询-键-值(Query-Key-Value, QKV)注意力机制对拆分后的特征图分块增强,从而实现增强目标特征。
基于分块增强的无人机目标特征提取组件实现细节如图3所示。首先通过检测器生成目标边界框,调整每个边界框B∈Rw×h 为固定尺寸,其中w、h 分别为边界框宽度和高度,在实验中设置为w=128 ,h=128 。采用ResNet50网络,得到目标特征图S∈Rn×s×t ,其中n 、s 、t 分别为特征图通道数、宽度和高度,在ResNet50中,n=1 024 ,s=8 ,t=8 ,将特征图沿宽度方向按比例p=1∶2∶1 拆分为3个片段,采用Patch Embedding[26]方法,步长step 设置为2,将上述特征片段展开为2维特征张量Si (i=1,2,3 ),Si 序列长度分别为
(1)
式中:pi 分别取1、2、1。
图 3 基于分块增强的无人机目标特征提取组件
应用Transformer中QKV注意力机制,将特征片段加权计算为查询矩阵Q 、键矩阵K 和值矩阵V,以此计算增强特征向量。计算公式为
(2)
式中:
为键矩阵KK中每个特征向量的维度。
设每个片段在经过QKV 注意力机制模块后输出为Sj={SA,SB,SC} ,具体计算方式为
(3)
式中:
为由Si 计算得到的查询矩阵、键矩阵、值矩阵;SA 为自注意力机制,CA 为跨注意力机制,均由式(2)计算得到。在得到Sj={SA,SB,SC} 后,将
扩维为
的特征张量,其中s'=s/2×p/4 ,t'=t/2 ;将3个张量沿宽度方向拼接,得到增强特征张量
;接着经过步长为s/2=t/2=4 的池化操作,得到增强特征向量F'∈R4n×1 ;然后,经2个全连接层得到增强目标外观特征向量AF∈R128×1 ;最后,计算目标间特征向量余弦距离用于后续数据关联,相同目标间余弦距离应接近0,不同目标间余弦距离应尽量高。
1.3 无人机局部几何信息关联算法
在空对空视角下无人机视频序列中,无人机相机与目标存在相对运动,传统卡尔曼滤波方法很难处理这种不规则运动情况。为此,设计了局部几何信息关联算法,降低无人机与目标相对不规则运动对数据关联的影响。在无人机目标跟踪过程中,观察到连续2帧中相同目标与周边目标间几何关系相对不变,基于该特性,设计了相对几何关系向量m=[xmean,ymean,xstd,ystd,θ,lmax,lmin]来表示在局部区域内目标间的相对关系,其中xmean 、ymean 、xstd 、ystd 为在目标中心LL范围内所有目标中心横坐标和纵坐标的均值和标准差;lmax 、lmin为在L 范围内距离最远和最近的目标距离,θ 为二者间夹角。如图4所示,对于连续2帧中的目标,以目标1为例,在局部区域L 范围内,目标2距离目标1最近,距离目标3最远,则目标1在连续2帧中对应几何关系向量分别为
图 4 局部几何信息关联
由图4可以看出,目标1的几何关系向量在无人机运动过程中保持相对不变。
在实际跟踪过程中,对于输入图像It,检测到q个目标,计算每个目标几何关系向量m与w个跟踪片段几何关系向量的相似度,得到局部几何代价矩阵ML∈Rq×w ,同时目标增强外观特征用于计算特征余弦距离矩阵MF∈Rq×w ,最后利用ML 和MF 设计目标数据关联算法。
1.4 基于分块特征增强与局部几何信息关联的级联数据关联框架
基于分块特征增强与局部几何信息关联的级联数据关联框架如图5所示。
图 5 基于分块特征增强与局部几何信息关联的级联数据关联框架
采用检测算法得到检测结果后,对于输入图像It ,将检测结果分为高分检测结果和低分检测结果,采用卡尔曼滤波预测跟踪片段在当前帧的位置,计算高分检测结果与跟踪片段边界框交并比和外观特征相似度,构建代价矩阵C∈Rq×w ,计算公式为
(4)
式中:MF(i,j) 与Mm(i,j) 分别为第ii个检测结果与第j 个跟踪片段间外观特征余弦距离矩阵和交并比。采用匈牙利算法对代价矩阵C 进行关联,为检测结果分配目标身份编号。对于未关联上的高分检测结果,采用局部几何信息关联算法,计算其与剩下跟踪片段的位置代价矩阵ML ,采用匈牙利算法对其进行一次关联,为检测结果分配身份编号。这时,还有一些跟踪片段与高分检测结果不匹配,因此再用低分检测结果与未匹配跟踪片段构建代价矩阵C 进行关联。将没有成功关联的高分检测结果初始化为新跟踪片段,赋予新目标身份,舍弃未关联上的低分检测结果。
2 算法实现细节及实验验证
2.1 算法实现细节
2.1.1 训练过程
检测后跟踪算法根据实现任务不同可以拆分为检测组件和特征提取组件,针对不同组件可采用不同的训练策略,所有实验均在1块NVIDIA 3090 GPU上开展。
采用经典目标检测算法Faster R-CNN[27]作为检测组件,每块GPU上同时训练8张图像,输入分辨率设置为1 088 pixel×1 088 pixel 。采用带有动量的随机梯度下降(Stochastic Gradient Descent, SGD)算法优化网络模型,初始学习率设置为0.02,动量参数和权重衰减参数分别设置为0.9和0.000 1,算法训练20个周期,学习率在第3个周期和第11个周期下降为原来的10%。模型先在COCO大型通用目标检测数据集上完成预训练,然后在相应无人机数据集上微调,训练损失函数为
(5)
式中:ℒcls为目标分类损失;ℒbox为目标边界框损失。
ℒcls计算公式为
(6)
式中:Ncls 为分类权重系数,值为256;Lcls为二分类交叉熵损失,用于计算目标预测概率与目标预测真值间的损失;pi 为目标预测概率;
为目标分类真值,如果是正例则
=1 ,如果是反例则
=0。
ℒbox计算公式为
(7)
式中:λ 为损失函数平衡系数,设置为10;Nbox 为回归权重系数,值为预测边界框数量;Lbox 为平滑L1损失函数;ti={tx,ty,tw,th} ,其中tx、ty、tw、th 为预测目标边界框的4个参数,分别对应边界框中心点横坐标和纵坐标及其边界框宽和高的偏移量;
为目标边界框参数真值;函数R 为
(8)
将所设计的增强特征提取算法作为特征提取组件,每块GPU上同时训练8张图像,输入分辨率设置为128 pixel×128 pixel ,采用带有动量的SGD算法优化网络模型,初始学习率为0.05,动量参数和权重衰减参数分别设置为0.9和0.000 1,算法训练40个周期,学习率在第5、10、15、20个周期下降为原来的10%。模型先在ImageNet大型图像分类数据集上完成预训练,然后在对应的无人机数据集上微调,采用交叉熵损失监督训练过程,其公式为
(9)
式中:N 为重识别数据中目标无人机数量总和;M 为重识别数据集中目标无人机类别数量;yic 为符号函数,如果样本i 真实类别等于c 则取1,否则取0 ;pic 为样本ii属于类别c 的模型预测概率。
2.1.2 推断过程
在默认推断阶段,将视频序列图像输入Faster R-CNN检测器,分辨率缩放为1 088 pixel×1 088 pixel ,宽高比保持不变,设置目标输出得分阈值为0.01,高出阈值目标采用非极大值抑制(Non-Maximum Suppression, NMS)算法解算出边界框,NMS阈值设置为0.5。得到检测结果后,根据边界框信息在原图像中裁剪出目标图像,输入特征提取组件,得到目标外观特征,采用关联算法依据目标外观特征和目标位置信息对连续帧中目标进行关联,得到完整跟踪片段。
2.2 数据集定义
多无人机跟踪领域内目前没有开源多无人机目标跟踪数据集,本文收集了一个空对空多无人机目标跟踪数据集,命名为MOT-FLY,同时选用单无人机跟踪数据集DUT Anti-UAV Tracking,通过2个数据集进行算法验证与评估,目前这2个数据集均已开源,MOT-FLY链接为https:∥pan.baidu.com/s/1eS84Ooz0URojz1tAJNZ5Eg?pwd=pe53,提取码: pe53。
1) MOT-FLY是一个空对空视角下多无人机目标跟踪数据集,包含16个RGB视频序列,共11 186张图像,其中训练图像7 238张、测试图像3 948张,每张图像分辨率为1 920 pixel×1 080 pixel ,每个序列包含1~3个目标无人机,涵盖多种跟踪场景,例如不同拍摄视角、背景环境、光照条件、目标运动模式。数据集中大部分实例尺寸在图像中占比小于5%。将MOT-FLY的训练集共7 238张图像作为输入,训练多目标跟踪算法中的检测组件,用测试集共3 948张图像测试训练后检测组件性能。将数据集根据标注真值裁剪出目标所在区域,构成MOT-FLY无人机重识别数据集,其中训练集和测试集裁剪出的实例图像构成重识别数据集的训练集和测试集,分别用于对外观特征提取组件进行训练和测试。
2) DUT Anti-UAV Tracking是DUT Anti-UAV中的单目标无人机跟踪数据集,包含20个RGB视频序列,共24 804张图像,将每个视频序列拆分为2个部分,前半部分共12 398张图像作为训练集,后半部分共12 406张图像作为测试集,分别用于对多目标跟踪中的检测组件进行训练和测试。图像分辨率有720 pixel×1 280 pixel和1 920 pixel×1 080 pixel共2种,序列中出现超过8种无人机,数据集中的图像涵盖了晴天、多云、丛林、农场、城市等多种复杂背景和白天、晚上、黄昏等不同光照条件。数据集中大部分目标长宽比在1.0~3.0之间。将数据集根据标注真值裁剪出目标所在区域,构成DUT Anti-UAV Tracking无人机重识别数据集,其中训练集和测试集裁剪出的实例图像构成重识别数据集的训练集和测试集,分别用于对外观特征提取组件进行训练和测试。
2.3 算法评价指标
1) 平均精确度均值(mean Average Precision, mAP),用于评估特征提取组件对不同目标检索和分类的精确率,其计算公式为
(10)
式中:C 为目标类别总数;APk 为第k 类目标平均精确度,其计算公式为
(11)
其中:pk 、rk 分别为第k 类目标的分类精确率和召回率,其计算公式为
(12)
其中:TP 、FP 、FN 分别为算法正检数、误检数、漏检数。
2) 多目标跟踪准确率(Multiple Object Tracking Accuracy, MOTA),用于评价多目标跟踪算法对目标跟踪的准确性,可统计跟踪过程中误差累积情况,其计算公式为
(13)
式中:IDs、GT分别为算法在跟踪过程中的目标身份编号切换次数(ID Switch, IDs)和目标真实数量。
3) 多目标跟踪身份编号F1值(ID F1 Score, IDF1)与目标身份编号切换次数,用于评价算法对目标跟踪的稳定性,IDF1计算公式为
(14)
式中:IDTP、IDFP、IDFN分别为算法对目标身份正检样本数、误检样本数、漏检样本数。IDs为算法在推断过程中所有目标身份编号切换总次数。
4) 算法每秒推断帧数(Frames Per Second, FPS),用于评估算法对视频的推断速率。
2.4 基于分块增强的特征提取组件实验结果
为验证不同特征提取组件对目标特征的提取能力,将分块增强特征提取组件与在通用目标重识别数据集ImageNet上表现较优且在多目标跟踪领域被作为特征提取组件频繁使用的ResNet系列网络进行对比,在DUT Anti-UAV Tracking和MOT-FLY重识别测试集上验证其性能。
选择MOT-FLY中2种无人机目标和DUT Anti-UAV Tracking中6种无人机目标,绘制ResNet系列网络和分块增强特征提取组件对不同无人机目标检索的精确率-召回率曲线,如图6所示。由图6可知,对于不同无人机目标,分块增强特征提取组件对应曲线积分面积普遍大于ResNet系列曲线,表明其性能总是最优的,尤其在召回率较低、检索样本较少时,其检索精确率往往是最高的。然而,对于MOT-FLY数据集中类型1无人机以及DUT Anti-UAV Tracking数据集中类型3无人机和类型6无人机,分块增强特征提取组件表现较差,这3种无人机如图7所示,在视频序列中它们的目标背景环境与光照条件发生较大变化,外观特征也随之变化,这可能是导致外观特征提取组件性能降低的原因。
图 6 分块增强特征提取组件与ResNet系列网络对8种无人机目标推断的精确率-召回率曲线图
图 7 MOT-FLY 与DUT Anti-UAV Tracking中无人机样例
将分块增强(Block Enhancement, BE)机制应用在ResNet系列网络上,其在2个数据集上对所有无人机目标的mAP推断结果如表1所示。可以看出,在加入分块增强机制后,ResNet系列网络在MOT-FLY重识别数据集上的性能分别提高了0.7%、1.6%、0.8%,在DUT Anti-UAV Tracking重识别数据集上分别提升了5.9%、8.9%、6.5%。结果表明,分块增强机制可应用于多种特征提取网络中,均能提升网络对无人机目标的检索精确率。
表 1 特征提取组件在不同重识别数据集的实验结果
为验证增强特征提取组件对不同算法性能的影响,选择DeepSORT、Tracktor[28]算法,分别采用分块增强特征提取组件和ResNet系列模型提取目标特征,算法在MOT-FLY测试集的性能表现如表2所示。由表2可知,相比于ResNet模型,采用分块增强特征提取组件后,DeepSORT和Tracktor算法的MOTA分别提升了2%和3%,IDF1提升了5.3%和0.3%,IDs均有明显降低,表明分块增强特征提取组件提取的细粒度目标特征可以提高算法性能,使目标检索成功率更高。
表 2 特征提取组件在MOT-FLY测试集的实验结果
不同无人机机身和机臂比例不尽相同,为探究分块增强组件沿宽度方向拆分比例p 对算法性能的影响,选择不同的pp值,在ResNet50基线网络上进行调整,算法性能验证结果如表3所示。当特征图两侧区域沿宽度方向占比逐渐增加、中心区域沿宽度方向占比逐渐降低时,特征提取组件在MOT-FLY测试集上mAP由64.9%提高至69.6%再降低至68.4%,在DUT Anti-UAV Tracking测试集上mAP由61.9%提高至66.8%再降低至64.0%,其对不同无人机目标检索能力先上升后下降,当p=1∶2∶1 时,分块特征提取性能达到最优,这可能是因为该比例更符合数据集中大部分无人机目标机臂和机身占比形态特点。
表 3 不同沿宽度方向拆分比例的特征提取组件在不同数据集的性能表现
2.5 无人机局部几何信息关联算法结果验证
考虑到局部区域LL的大小也会影响算法的跟踪性能,以目前较新的Byte关联算法作为基线算法,采用Faster R-CNN作为检测组件,调整局部区域LL的值,算法在不同局部区域下对目标跟踪的结果如表4所示。局部区域半径在100~500 pixel时,算法的MOTA和IDF1不断提高,并在半径为500 pixel时取得最优效果;当半径取1 000 pixel和2 000 pixel时,算法的性能有所下降,这可能是因为局部区域选取过大后,不同目标相对几何关系向量间差异减小,导致数据关联成功率降低。
表 4 局部区域半径对Byte关联算法在MOT-FLY测试集的性能影响
局部几何信息关联算法可应用于多种多目标跟踪关联算法中,选择目前较优的SORT[29]算法、DeepSORT算法和Byte算法,表5展示了没有加入局部几何信息关联的算法与加入局部几何信息关联的算法在MOT-FLY测试集上的性能变化。由实验结果可知,加入局部几何信息关联算法后,各关联算法IDs均有大幅下降,IDF1值分别有4.6%、2.6%、0.8%的提升;各算法的MOTA值也有提升,分别从42.0%提升到44.6%,从42.5%提升到45.6%,从48.0%提升到48.5%。这表明在应用局部几何信息关联算法后,跟踪过程中检测结果与跟踪片段关联成功率更高,目标身份编号切换更少,算法对多目标无人机的跟踪更准确。
表 5 局部几何信息关联算法在MOT-FLY测试集的实验结果
2.6 基于分块特征增强与局部几何信息关联的级联数据关联框架结果验证
为验证级联数据关联算法的有效性,选择ByteTrack算法作为基线,MOT-FLY测试集作为评测数据集。
表6为消融实验结果,采用的算法分别为基线算法(Baseline)、基线算法中引入BEFE组件(Baseline+BEFE)、基线算法中引入BELGCA组件(Baseline+BELGCA)。实验结果表明,与基线算法相比,加入级联数据关联机制后,算法的MOTA、IDF1均有明显提高,IDs有明显下降。这表明算法跟踪过程中无人机身份编号切换次数下降,使多目标无人机跟踪的准确性和稳定性均有提升。
表 6 级联数据关联框架在MOT-FLY测试集的实验结果
采用Baseline和Baseline+BELGCA算法对MOT-FLY数据集中DJI_0281和DJI_0288视频序列进行跟踪,结果如图8和图9所示。在跟踪前170帧中目标时,在DJI_0281中,由于无人机与目标间存在相对运动,编号为1的目标身份连续切换到13,在DJI_0288中编号为2的目标身份切换到13;而加入级联数据关联框架后,DJI_0281中所有目标身份编号在170帧内未切换,DJI_0288中编号为2的目标身份在170帧时切换到4,说明级联关联框架明显降低了无人机相对运动对数据关联的影响,降低了目标身份编号切换次数,提高了目标检索成功率和关联成功率。
图 8 采用Baseline+BELGCA和Baseline算法对MOT-FLY测试集中DJI_0281序列跟踪结果
图 9 采用Baseline+BELGCA和Baseline算法对MOT-FLY测试集中DJI_0288序列跟踪结果
2.7 与目前流行的多目标跟踪算法的对比实验
为更好地验证算法对空对空多无人机目标跟踪的性能提升,引入当前在通用领域表现较优的多目标跟踪算法参与对比实验,包括DeepSORT、ByteTrack、OC-SORT[30]、CenterTrack[31]、CTracker[32]和FairMOT。其中,CenterTrack、CTracker、FairMOT为联合检测与跟踪算法;DeepSORT、ByteTrack、OC-SORT为检测后跟踪算法。在检测后跟踪算法中,选择当前较为先进的YOLOX[33]算法作为检测组件,YOLOX将YOLO系列检测器切换到无锚点模式并采用多种先进检测技术,包括解耦分支头、Mosaic[34]和MixUp[35]等数据增强方法,以及高效的标签分配策略SimOTA[36],这些技术使YOLOX在通用目标检测领域可实现最优性能。
YOLOX与YOLOv5相同,采用了先进的CSPNet主干网络[37],并引入额外的PAN头[38],在主干网络后有2个解耦分支头,一个用于回归目标边界框,另一个用于预测目标类别。在回归分支中,加入了附加的交并比感知分支,以预测回归边界框与真值边界框交并比。回归分支直接在特征图上针对每个目标位置预测4个值,包括以目标边界框左上角为基准的横坐标和纵坐标偏移量以及边界框高度和宽度。回归分支采用GIoU损失[39]监督训练,预测分支采用二元交叉熵损失训练。
YOLOX在训练过程中采用SimOTA标签分配策略,根据预测结果与真值标注间代价自动选择正例,这里的代价是分类代价与边界框回归代价的加权和。然后,根据代价从目标中心周围固定区域中选择k个正样本。这种先进的标签分配策略明显提高了检测器性能。
各算法在MOT-FLY测试集上的性能如表7所示,其中BELGTracker为本文设计的算法,该算法综合了本文设计的所有创新点。为保证算法对比的客观性,在实验中本文算法同样采用YOLOX作为检测组件。实验结果表明,本文算法相比于OC-SORT算法IDF1提升了5.6%,相比于ByteTrack算法MOTA提升了2.7%,且IDs为57,处于较低水平,同时本文算法具有相对较高的推断速率(46.9);在多无人机目标跟踪方面,与联合检测与跟踪算法FairMOT和检测后跟踪算法OC-SORT相比,本文算法性能均有明显提升,对无人机目标的跟踪更准确,同时具有与FairMOT和OC-SORT算法接近的推断速率。
表 7 本文算法与目前流行的多目标跟踪算法对比结果
考虑到实际无人机空对空应用场景中算力可能受限,将本文算法经过NVIDIA框架TensorRT推理引擎加速后,部署到嵌入式处理计算机NVIDIA Jetson Xavier NX上,将MOT-FLY数据集中视频作为输入,测试算法在实际部署时的推断速率。本文算法采用YOLOX作为检测组件,加入分块增强机制的ResNet系列网络作为外观特征提取组件,实验结果如表8所示。相比于采用ResNet18-BE提取外观特征,采用ResNet50-BE的FPS下降了3.5,但仍满足部署时实时运行需求。而实际部署时,若应用场景对算法实时性要求较高,可以考虑牺牲一部分算法跟踪准确率,采用ResNet18-BE这类轻量级外观特征提取组件,从而优先保证算法推断速率。
表 8 本文算法在NVIDIA Jetson Xavier NX上推断速率
3 结论
本文提出一种基于分块增强特征提取与局部几何信息关联的级联多目标跟踪算法,形成结论如下:
1) 在创新性方面,提出了分块增强无人机目标特征提取组件、无人机局部几何信息关联算法、基于分块特征增强与局部几何信息关联的级联数据关联框架,提高了算法对空对空视角下弱特征多无人机目标跟踪的准确率。
2) 在实用性方面,在多无人机跟踪数据集MOT-FLY和无人机跟踪数据集DUT Anti-UAV Tracking上对所提出的算法进行了验证。与现有通用多目标跟踪算法相比,本文算法在目标检索成功率、跟踪目标身份编号切换次数和多无人机目标跟踪准确率方面表现更优,实现了最优性能。
所研究的分块增强特征提取组件能够提取成像较清晰的无人机目标外观特征,提高了算法的目标检索成功率,但是对于成像尺度极小(5 pixel×5 pixel左右)、特征模糊的微小无人机目标,目标本身特征与背景区分不明显,所设计的算法可能表现不如预期,对该类目标的检测与跟踪将是接下来的研究方向。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。
注:本文由“人工智能技术与咨询”发布人工智能、大数据、多模态大模型、计算机视觉、自然语言处理、数字孪生、深度强化学习······
来源:龙腾AI