摘要：本文针对无人机（UAV）视频中目标尺寸小、运动快导致的多目标跟踪难题，提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪（贴合无人机场景特性），并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上，性能超越

【导读】

本文针对无人机（UAV）视频中目标尺寸小、运动快导致的多目标跟踪难题，提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪（贴合无人机场景特性），并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上，性能超越当前最优方法，展现卓越鲁棒性与适应性。>>更多资讯可加入CV技术群获取了解哦~

近年来，随着无人机技术的快速发展，警务系统正逐步实现从"平面防控"向"立体巡防"的转型升级。无人机凭借其高空视野广、机动性强等特点，在嫌疑人追踪、交通监控、应急处突等警务实战中发挥着不可替代的作用。然而，无人机高速运动导致的图像模糊、高空拍摄带来的目标尺度微小等问题，严重制约着多目标跟踪（MOT）系统的实战效能。

论文标题：

SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects

论文链接：

引言

多目标跟踪（MOT）在多种无人机应用中发挥着关键作用，涵盖从警方进行的实时嫌疑人跟踪到人类与无人机之间的交互。此类应用中MOT的主要目标是准确估计并追踪无人机搭载摄像头捕获的实时视频流中多个目标的轨迹。然而，UAV应用中的MOT面临独特挑战，包括无人机高速运动以及高空广角视角导致的目标物体尺寸过小。这些固有挑战可能显著影响目标跟踪性能的整体准确性。

为解决这些挑战，大多数当代MOT方法采用运动特征与基于深度学习的外观相似性特征的融合。然而，无人机动态且无约束的移动特性为传统运动特征处理技术（如卡尔曼滤波器）带来了显著障碍。此外，视角的快速变化和物体的小尺寸会给依赖外观相似性的方法带来困难，包括基于深度学习的重新识别匹配方法的应用。这主要是因为小尺寸物体经常出现低置信度检测，导致假阳性和假阴性率均较高。此外，现代基于深度学习的重新识别模块在涉及小尺度或部分遮挡物体的场景中，往往难以获取高质量的视觉特征，这主要归因于这些物体在图像中的覆盖范围受限。因此，本文提出了两个主要目标以应对这些挑战：（1）开发一种更 robust 的技术以补偿无人机的不规则运动。（2）有效管理无人机应用中低置信度检测的频繁发生，主要源于模糊图像、物体尺寸过小及遮挡问题。

本文做出以下贡献：

• 提出了一种能够有效处理无人机多目标跟踪固有挑战的方法，包括快速且不规则的无人机运动、小型目标以及遮挡问题。

• 引入了一种从低置信度检测结果中启动跟踪的创新策略，尤其适用于无人机场景。为管理这些低置信度检测结果，建议重新审视基于人工特征的传统外观匹配算法。

• 对方法在多个数据集上进行了全面评估，包括VisDrone2019、UAVDT和MOT17，证明了其有效性和优越性能。

• 识别并纠正了UAVDT数据集中缺失和错误的注释，这有助于更准确的评估和进一步的研究。

方法

本节介绍跟踪策略 SF-Track（小型快速移动物体跟踪），旨在解决无人机应用中低置信度检测频繁出现的问题。与先前方法采取的保守策略（仅从高置信度检测结果开始跟踪）不同，主动利用低置信度检测结果作为跟踪起点。此外，通过重新采用传统外观匹配算法（如颜色直方图相似度和缩放图像均方误差）进行数据关联，进一步提升跟踪精度。采用了一种专为无人机视频中不规则和快速运动设计的运动补偿技术。

方法细节遵循算法1中的步骤。此跟踪算法以视频序列V为输入，配合物体检测器Det，其参数包括：检测置信度阈值τ和低置信度检测跟踪阈值ρ。输出结果为一组轨迹集T，每个轨迹包含跨帧的边界框坐标，同时保持物体身份的连续性。

该过程首先使用目标检测器预测边界框和置信度分数。随后，类似于BYTE ，我们根据分数阈值τ将检测结果分为高置信度Dhigh和低置信度Dlow两组（参见算法1的第1-12行）。

无人机运动补偿

在分离低分值和高分值检测框后，我们采用一种增强的运动补偿算法，该算法融入了一个简单而有效的想法，灵感来源于Aharon等人的方法。虽然传统的运动补偿方法有效，但在低空无人机场景中，由于边界框比例失真引起的错误，它往往会失效。我们的解决方案是一个直接的调整，即保持边界框比例。为实现这一目标，我们通过提取特征点并利用稀疏光流跟踪这些特征点，计算捕获相机运动的仿射变换矩阵Mk。该矩阵包含缩放、旋转和平移分量，指导边界框的变换。随后，我们使用卡尔曼滤波预测更新轨迹状态向量T，并将Mk应用于该更新后的状态向量。此外，为防止该过程中边界框比例发生显著失真，我们对Mk中的缩放因子施加约束，具体选择x轴与y轴中较大的缩放因子，并将其均匀应用于两轴。此方法可在帧间保持边界框比例的一致性，即使在低空飞行时无人机摄像头发生剧烈运动时亦然（图2）。

在补偿无人机运动后，我们首先使用Re-ID特征的交并比（IoU）和余弦相似度将所有轨迹T与高置信度检测Dhigh进行关联。基于这些指标的乘积，采用匈牙利算法进行关联。未匹配的高置信度检测形成集合Dhigh remain，剩余轨迹构成集合Tremain（见算法1的第20-23行）。

低置信度检测匹配

在完成初始关联后，系统会对剩余轨迹集合T_remain与低置信度检测集合D_low进行二次关联。与第一轮采用基于深度学习的Re-ID特征不同，本轮关联针对低置信度检测提出使用传统手工设计的表观特征（参见算法1第24-27行）。具体而言，我们采用颜色直方图相似度和缩放图像均方误差（MSE）作为表观线索，通过匈牙利算法建立关联关系，该关联依赖三个关键值的乘积：交并比（IoU）、颜色直方图相似度以及缩放图像MSE。

颜色直方图能有效捕捉图像中物体的颜色分布特征。我们将每个颜色通道（R、G、B）的强度值均匀划分为8个区间（0-31、32-63、...、224-255），并统计像素颜色值的出现频率。颜色直方图相似度通过巴氏距离[31]计算。此外，采用缩放图像MSE衡量图像差异度：首先将边界框裁剪的图像缩放到统一尺寸以确保尺度无关性，随后计算两幅图像的MSE值。为将MSE转换为0-1范围的相似度分数，我们用1减去归一化后的MSE值。

该设计的动机源于深度学习方法（包括Re-ID）的局限性——这些方法在低分辨率或遮挡场景下表现欠佳，因其倾向于聚焦前景物体而可能忽略背景中的目标物体。相比之下，传统匹配算法（如颜色直方图相似度和缩放图像MSE）会考虑完整图像信息，不受遮挡影响。因此，这些方法在遮挡和低分辨率场景中展现出更优性能。如图3所示，我们的低置信度检测关联策略在低分辨率和遮挡情况下显著优于基于深度学习的方法。

完成低置信度检测匹配阶段后，任何在高/低置信度检测匹配阶段均未关联成功的轨迹将从跟踪池中移除（见算法1第28-29行）。此处我们参考BYTE方法的设计，为轨迹设置30帧的宽限期——若连续30帧未能匹配成功才予以删除，该机制能有效避免因短暂遮挡或检测失败导致的轨迹误终止。

基于低置信度检测的轨迹初始化

与BYTE等先前方法不同，我们提出创新策略：不仅从未匹配的高置信度检测（D_high_remain）初始化新轨迹，还允许从低置信度检测初始化（见算法1第30-39行）。然而，直接初始化低置信度检测轨迹会引入冗余、非必要甚至干扰性的物体候选目标。

为解决该问题，我们通过Re-ID特征计算低置信度检测与同类别高置信度检测的表观相似度，将此过程作为过滤机制：仅当未匹配低置信度检测（D_low_remain）与高置信度检测的相似度超过预设阈值ρ时，才允许其初始化新轨迹。这种双重验证机制提升了低置信度检测的可靠性，既改善了对小尺度物体的跟踪效果，也增强了系统的整体性能。

数据集与评估指标

本研究在三个数据集上进行实验：两个无人机专用数据集VisDrone2019和UAVDT，以及通用数据集MOT17。评估采用CLEAR指标，包括多目标跟踪准确率（MOTA）、误报数（FP）、漏报数（FN）和ID切换次数（IDs）。

数据集

VisDrone2019包含五项任务：图像目标检测、视频目标检测、单目标跟踪、多目标跟踪（MOT）及无人机视频人群计数。本文专注于该数据集的MOT任务，其训练集含56个序列、验证集7个序列、测试开发集17个序列。为公平对比，我们限定五类目标：行人、轿车、厢式车、卡车和巴士，与文献的类别保持一致。

UAVDT是无人机检测与跟踪基准数据集，提供30个训练序列和20个测试序列，仅针对MOT任务中的车辆跟踪。该数据集独特之处在于标注了环境属性（如天气、高度和摄像机视角），涵盖多样化的采集条件。

MOT17是多目标跟踪领域的权威数据集，覆盖行人、车辆等动态目标的丰富城市场景。我们遵循文献的协议，将训练集均分为训练与验证两部分，并仅针对行人类别开展MOT任务。这是本研究中唯一的非无人机数据集。

UAVDT数据修正

研究发现UAVDT存在显著标注错误（如图4所示）：部分目标缺失标注，大量标注框在目标出现前或消失后仍持续存在。为提升研究准确性，我们对4721帧图像进行标注修正，生成"Refined UAVDT"版本。该版本新增43,981个标注框（总量从340,906增至384,887）和55条轨迹。修正后的数据集将公开供后续研究使用。

实现细节

实验平台配置Intel Core i9-10900X @ 3.70GHz处理器和NVIDIA GeForce RTX 3090显卡。采用COCO数据集预训练的YOLOX检测器：

VisDrone2019/UAVDT实验：在各自训练集上训练，输入分辨率1920×1080（遵循[28]协议）MOT17实验：使用CrowdHuman和MOT17训练集前半部分训练，在后半部分验证集测试，输入分辨率1440×800。无需代码，训练结果即时可见！

在Coovally平台上，上传数据集、选择模型、启动训练无需代码操作，训练结果实时可视化，准确率、损失曲线、预测效果一目了然。无需等待，结果即训即看，助你快速验证算法性能！

从实验到落地，全程高速零代码！

无论是学术研究还是工业级应用，Coovally均提供云端一体化服务：

免环境配置：直接调用预置框架（PyTorch、TensorFlow等）；免复杂参数调整：内置自动化训练流程，小白也能轻松上手；高性能算力支持：分布式训练加速，快速产出可用模型；无缝部署：训练完成的模型可直接导出，或通过API接入业务系统。

平台链接：

无论你是算法新手还是资深工程师，Coovally以极简操作与强大生态，助你跳过技术鸿沟，专注创新与落地。访问官网，开启你的零代码AI开发之旅！

实验与结果

与先进方法的对比

我们在VisDrone2019、UAVDT和MOT17三个数据集上与其他主流关联方法进行了对比。需说明的是，UAVMOT和FOLT并非严格意义上的数据关联方法，因此无法在完全相同的环境下评估。但我们参考了其原始论文的评估协议，并尽量在目标类别、输入分辨率等设置上保持一致。

无人机数据集

在无人机数据集上，SFTrack在多数指标上显著领先。例如：在VisDrone2019上，我们的MOTA指标比最优的ByteTrack提升4.9%，IDF1分数比当前最佳FOLT提高5.2%。但该方法存在误报数（FP）增加与漏报数（FN）减少的权衡，这源于我们主动利用低置信度检测并使用传统表观匹配算法的策略。值得注意的是，相比现有方法，SFTrack展现出更均衡的跟踪性能。且在实际场景中，避免漏跟目标通常比短暂跟踪非目标对象更为重要。