摘要:检测和跟踪城市交通中的行人、自行车和摩托车等小物体对交通监控系统构成了重大挑战,因为它们的运动轨迹多变、经常被遮挡,并且在动态的城市环境中可见度低。传统的检测方法,如YOLO11,虽然擅长提取空间特征进行精确检测,但往往难以应对这些小而动态的物体,尤其是在处理
论文信息
题目:DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Detecting and Tracking Small Occluded Objects in Urban Traffic
论文链接:
数据集下载
摘要
检测和跟踪城市交通中的行人、自行车和摩托车等小物体对交通监控系统构成了重大挑战,因为它们的运动轨迹多变、经常被遮挡,并且在动态的城市环境中可见度低。传统的检测方法,如YOLO11,虽然擅长提取空间特征进行精确检测,但往往难以应对这些小而动态的物体,尤其是在处理实时数据更新和资源效率方面。
本文介绍了一种名为 DGNN-YOLO的新型框架,该框架将动态图神经网络 (DGNN) 与YOLO11相结合,以解决这些局限性。与标准GNN不同,DGNN之所以被选择,是因为它们能够实时动态更新图结构,这使得它们能够适应性强且鲁棒地跟踪高度可变的城市交通场景中的物体。该框架构建并定期更新其图表示,将物体视为节点,将它们之间的交互视为边,从而有效地应对快速变化的环境。此外,DGNN-YOLO还集成了Grad-CAM、Grad-CAM++和Eigen-CAM 可视化技术,以增强可解释性并建立信任,提供对模型决策过程的见解。广泛的实验验证了该框架的性能,实现了0.8382的精度、0.6875的召回率和0.6476的mAP@0.5:0.95,显著优于现有方法。这项研究为实时交通监控提供了一种可扩展且可解释的解决方案,并通过解决检测和跟踪小物体这一关键挑战,显著提高了智能交通系统的能力。
引言
智能交通系统(ITS)的快速发展已经彻底改变了交通管理和城市出行方式。ITS涵盖了众多技术,以提高道路安全、减少拥堵,并在城市环境中实时做出决策。ITS的关键方面之一是检测和跟踪小型物体,如行人、自行车和摩托车,这对于诸如交通监控、事故预防以及自动驾驶等应用至关重要。然而,由于遮挡、低分辨率、变量照明条件和高度物体密度,小型目标检测和跟踪仍然具有挑战性,传统的检测方法在动态现实世界场景中不足以满足需求(Nguyen和Patel,2021年)。
早期的目标检测和跟踪方法主要依赖手工设计的特征和传统的机器学习算法。这些方法在各种条件和动态交通环境中往往难以实现泛化(Brown和Wilson,2019)。深度学习的出现引入了诸如卷积神经网络(CNNs)等现代目标检测框架,通过直接从数据中学习复杂的空间特征,实现了显著的性能提升(Zhang和Chen,2020)。然而,CNNs在模拟时间关系方面存在固有的局限性,这对在视频帧之间跟踪目标至关重要(Li和Wang,2022)。为了解决这些问题,图神经网络(GNNs)作为一种建模空间-时间关系和动态捕捉目标间交互的有前景的方法(Wang和Zhao,2021)逐渐浮现。
这篇论文介绍了一种新颖的框架DGNN-YOLO,它将YOLO11用于小目标检测和动态图神经网络(DGNN)用于跟踪。YOLO11是YOLO家族的一种高级迭代版本,针对实时应用进行了优化,在交通场景中检测小目标表现出卓越性能(Ultralytics,2024a)。DGNN模块通过动态构建图结构,其中节点表示检测到的目标,边捕捉它们的空间-时间关系。这种集成允许在复杂和动态的环境中在视频帧之间进行强大的跟踪(Ahmed和Johnson,2023)。
DGNN-YOLO框架在_i2目标检测数据集上进行了评估,该数据集是专门为交通监控应用设计的一个基准数据集,重点关注小型物体。该数据集包括各种交通场景和挑战,如遮挡和不同的光照条件,使其成为测试提出的系统处理实际世界挑战的能力的理想选择。结果表明,与最先进的方法(Chen和Kumar,2023)相比,DGNN-YOLO在提高检测准确率和跟踪鲁棒性方面具有有效性。
小目标检测
由于遮挡、低分辨率和尺度变化,小目标检测一直是一个持续的挑战,尤其是在交通监控中。早期方法依赖于手工制作的特征,如方向梯度直方图 (HOG) 和尺度不变特征变换 (SIFT),并结合支持向量机 (SVM) 等分类器 (Dalal和 Triggs,2005; Lowe,2004)。虽然这些方法在受控环境中有效,但它们往往难以应对具有可变照明和运动的复杂真实世界场景 (Viola和Jones,2001)。
深度学习的出现彻底改变了目标检测。Ren等人引入了Faster R-CNN,这是一种两阶段检测器,它将区域提议网络与卷积层相结合,以提高准确性和速度 (Ren等人,2017)。Redmon等人开发了YOLO,这是一个将检测和分类任务统一在一起的单一框架,显著提高了实时检测 (Redmon等人,2016)。然而,早期的YOLO版本由于依赖于粗粒度的特征图,因此难以检测到小物体。后续的迭代,如YOLOv3和YOLOv4,通过引入多尺度特征融合和改进的锚机制来解决了这些局限性 (Farhadi和Redmon,2018; Bochkovskiy等人,2020)。
在YOLO的基础上,其他框架也为小目标检测做出了贡献。RetinaNet采用焦点损失来解决类别不平衡问题 (Lin等人,2020),而单次多框检测器 (SSD) 利用多尺度特征图进行精确定位 (Liu等人,2016)。尽管它们具有优势,但在低光、雨天和交通拥堵等具有挑战性的条件下实现实时检测仍然很困难 (Chen 等人,2019)。新兴的基于 Transformer 的架构,如检测 Transformer (DETR),在建模全局关系以进行小目标检测方面显示出希望,尽管它们对计算资源的需求较高,限制了实际部署 (Carion等人,2020)。
GNN 在目标跟踪中的应用
GNN已成为在目标跟踪任务中建模时空关系的强大框架。通过将检测到的物体表示为节点并将它们的交互表示为边,GNN有效捕获了连续帧之间的依赖关系,使它们非常适合动态和复杂的环境。Jiang等人通过将目标检测和多目标跟踪集成到一个统一的框架中,证明了GNN的潜力,从而实现了更高的跟踪精度和鲁棒性。尽管取得了成功,但这些框架通常面临计算挑战,尤其是在实时应用中,因为它们的处理需求很高 (Jiang等人,2019)。
我们的研究通过引入一种新的图修剪算法直接解决了这些计算效率低下的问题,该算法在不损害跟踪精度的前提下降低了GNN计算的复杂性。这项创新使我们的模型能够在实时场景中有效运行,克服了Zhang等人开发的方法所面临的主要局限性。
在多目标跟踪中,Weng等人关于GNN3DMOT的工作利用多特征学习来提高在具有挑战性条件下的跟踪性能。然而,他们的方法可能计算量大,在人口稠密的场景中效果较差 (Weng等人,2020)。在此基础上,Büchner和 Valada 进一步完善了GNN在3D跟踪中的应用,他们提出了跨边模态注意力机制,该机制提高了精度,但仍然难以应对快速变化的场景。我们的贡献通过引入自适应特征选择机制来扩展这些方法,该机制根据场景复杂性动态调整使用的特征,显著提高了高密度场景中的处理速度和精度。
此外,类似于Zhang等人的SCGTracker和Ma等人的Deep Association的自适应图构建技术已经改进了处理遮挡和复杂物体交互的能力。然而,它们容易受到传感器质量差或物体快速移动的环境中出现的错误的影响。我们的系统通过集成一个实时环境反馈模块来增强这些模型,该模块动态地调整图参数,即使在波动环境条件下也能确保鲁棒的跟踪。
最后,Lee等人在数据关联方法方面的进展展示了在线多目标跟踪性能的提高。尽管如此,这些系统需要频繁更新和重新校准才能在不同的跟踪条件下保持有效。我们通过开发一个自我学习的图卷积网络来解决这一挑战,该网络根据传入数据持续发展,极大地减少了手动重新校准的需要,并提高了系统在不同条件下的适应性。
通过解决这些挑战,我们的研究推进了基于GNN的目标跟踪系统的实际部署和操作效率,为之前阻碍更广泛应用的扩展性、准确性和适应性问题提供了强大的解决方案。
方法
本节介绍了研究中使用的符号和背景信息。表 1 提供了常用符号及其定义的详细列表,这有助于清楚地理解所提出的DGNN-YOLO框架的数学和结构组件。此外,它还包括与XAI技术相关的符号和数学符号,即用于解释模型预测的Grad-CAM、Grad-CAM++和Eigen-CAM。这些符号构成了描述 YOLO11、DGNN和XAI技术的集成及其在交通监控中小物体检测、跟踪和可解释性应用的基础。
输入视频和目标检测
输入视频序列表示为{It}t=1T,其中T表示总帧数。每个帧It由YOLO11 处理,以产生一组检测到的物体Dt={(Bi, Ci, Li)}。在这种表示中,Bi=[x, y, w, h]指的是物体 i 的边界框坐标(x, y)和尺寸(w, h)。此外,Ci代表物体i 的置信度分数,表示其检测的确定性,而Li是物体i的类别标签,将其识别为“人力车”或“公共汽车”等物体。YOLO11还提取所有检测到的物体的空间特征(Fs),这对于跟踪至关重要。这些空间特征包含几何和外观信息,输入到基于图的跟踪机制中。
动态图构建
在每帧t中,构建了一个动态图Gt=(Nt, Et),以表示检测到的物体及其交互。节点Nt对应于检测到的物体,每个节点 i 由一个特征向量xi表示,该向量集成了空间和时间特征。边Et捕捉物体之间的关系,包括空间接近性和运动相似性,这些关系编码在邻接矩阵At中,其中Ai j表示节点 i 和 j 之间的边权重。随着物体进入或退出场景,图动态地演变,从而确保实时更新以反映物体位置和运动模式的变化,从而使模型能够对动态交通条件做出反应。
节点和边特征
图中的每个节点 i 都由一个特征向量xi=[Fs, Ft] 表示,其中Fs捕捉由 YOLO11提取的空间特征,以编码几何和外观信息,而Ft表示由DGNN计算的时序特征,用于模拟物体位置和交互随时间的演变。节点之间的边根据三个因素进行加权(eij):(1)接近性,计算为物体 i 和 j 之间的欧几里得距离;(2)速度相似性,由它们在时间 t 的速度(vi,t −vj,t)之间的差异决定;(3)外观,它使用从边界框特征派生的视觉相似性,以确保在视觉复杂的场景中保持稳健的关联。
时空交互
所提出的DGNN-YOLO模型通过两个关键组件使用时空交互来有效地跟踪物体。首先,空间特征(Fs)捕捉使用YOLO11从每个物体中提取的几何和基于外观的信息,这使其能够进行精确的定位和识别。其次,由DGNN计算的时序动态(Ft)表示物体位置和交互在连续帧中的演变,使模型能够理解运动模式。此外,边Et动态更新以反映随时间变化的物体关系,即使在复杂和快速变化的环境中也能确保鲁棒的跟踪。
损失函数
DGNN-YOLO框架优化两个损失函数,以确保准确的检测和鲁棒的跟踪。检测损失函数(Ldet)通过惩罚边界框定位和分类中的错误来评估目标检测的准确性。这确保了在每帧中精确识别物体。跟踪损失函数 (Ltrack) 使跨帧的物体身份不一致性最小化。它专注于维护动态构建的图中的边和节点特征一致性,确保鲁棒的时空关联。
实时处理和感兴趣区域
该系统按顺序处理视频帧,关注预定义的感兴趣区域®,以提高效率。这种方法优先考虑具有交通活动的区域,使DGNN-YOLO能够将计算资源集中在其最需要的地方。通过将处理限制在相关区域,该系统降低了计算开销,同时在检测和跟踪中保持高精度。这种优化确保DGNN-YOLO即使在具有高物体密度和动态条件的环境中也能有效地运行在实时场景中。
框架概述
图2描绘了DGNN-YOLO框架,该框架无缝地集成了YOLO11进行小目标检测和DGNN进行有效跟踪。它从视频输入开始,其中YOLO11识别物体、绘制边界框并分配置信度分数。然后,这些检测被转换为一个动态图,其中节点表示物体,边捕捉其运动、接近性和视觉相似性。DGNN动态更新此图,随着视频的进行,细化连接以即使在物体重叠或不可预测地移动时也能保持准确的跟踪。然后,我们的模型结合了邻居聚合、特征投影和语义融合,提供带有详细跟踪和分类的注释输出。这种端到端方法确保即使在最混乱的交通场景中也能可靠地执行。最后,为了提供更大的透明度,Grad-CAM应用于可视化影响 DGNN-YOLO11检测决策的关键区域,使用户能够看到图像的哪些部分驱动了分类。Grad-CAM++进一步通过解决模型对帧中同一类的多个实例的敏感性来增强这一点,从而改进了检测到的物体的定位。Eigen-CAM通过突出显示激活图的主成分,展示了对模型预测有重大影响的支配区域,从而有助于无监督的解释性。
DGNN-YOLO工作流程
如图 1 所示,DGNN-YOLO框架从由YOLO11检测模块处理视频帧开始。YOLO11检测物体并生成边界框、类别标签和置信度分数。这些输出用于动态构建一个图,其中节点表示检测到的物体,边捕捉时空关系,例如接近性和速度相似性。构建的图然后使用DGNN处理,DGNN通过细化跨连续帧的物体关联来细化物体跟踪,从而确保即使在物体重叠或不可预测地移动时也能实现鲁棒和准确的跟踪。
集成的优势
将检测和跟踪集成到一个统一流程中,DGNN-YOLO解决了传统方法依赖单独、分离阶段所面临的限制。YOLO11模块确保在困难条件下实现精确可靠的检测,而DGNN动态更新跨帧目标之间的关系。这种适应性使得系统能够有效处理诸如遮挡和物体运动变化的环境变化。DGNN-YOLO的模块化设计提高了检测准确性和跟踪可靠性,使其适用于实时交通监控应用(Wang等,2019年)。
基于YOLO11的检测机制
图 2 还显示了DGNN-YOLO框架中的YOLO11架构,该架构旨在提供精确的实时小物体检测。骨干层使用堆叠卷积层提取详细的多尺度特征,这些特征对于识别最微小的物体至关重要。颈部利用先进的模块动态处理这些特征,如用于结合全局和局部背景的空间金字塔池化快速(SPPF),以及用于增强空间和位置感知的C2PSA,使其在杂乱的环境中也能有效工作。最后,大脑利用这些细化的特征生成精确的边界框、可靠的分类和可靠的结果。这种设计使YOLO11即使在具有挑战性的拥挤场景中也具有高度的稳定性和适应性。
YOLO11利用卷积Backbone网络从输入帧中提取层次特征,实现强大的目标检测。该架构融入了高级组件,如空间金字塔池化(SPP),通过聚合多个感受野的特征来捕获全局和局部上下文。路径聚合网络(PAN)也被用于细化物体边界并提高分类准确度。这些改进使得YOLO11能够检测到细微的细节,使其在复杂且拥挤的环境中识别小目标(Redmon等,2016;林等,2017)方面特别有效。
图2(c)展示了DGNN-YOLO框架如何构建并更新一个动态图以有效追踪物体。在这里,物体被表示为节点 (Nt),它们之间的关系,如运动和接近,被表示为边(Et)。图实时调整,在物体出现或消失时添加或删除节点,并更新边以反映变化的作用。更新组件处理这些变化,而传播组件确保每个节点的影响力在图中传播。这个过程使系统能够准确地追踪物体,即使在繁忙或复杂的环境中也是如此。
基于DGNN的跟踪技术
DGNN通过利用图中的空间-时间依赖性来优化物体跟踪。它使用图卷积层来模拟物体之间的相互作用,捕捉它们的空间关系和时间动态。DGNN通过在每个帧上处理图来动态更新节点和边表示,以确保跟踪在遮挡、快速运动或拥挤环境下的一致性。
这种方法使得DGNN-YOLO能够有效处理复杂的交互,如物体进入或离开场景或轨迹重叠,使其在应对实际交通场景的挑战方面具有鲁棒性。
损失函数
DGNN-YOLO采用组合损失函数来优化检测和跟踪任务。检测损失(Ldet)可确保物体定位和分类的准确性,而跟踪损失(Ltrack)可最大限度地减少物体轨迹的时间不一致性,从而提高帧间的平稳性和可靠性。DGNN-YOLO受FairMOT等方法的启发,将检测和重新识别整合到一个统一的框架中,利用两种损失的加权组合来平衡这些目标(Zhang等人,2021年)。总损失函数定义如下:
L = λdetLdet + λtrackLtrack, (2)
其中,λdet和λtrack是加权系数,用于控制探测和跟踪损失的相对贡献。这种公式使DGNN-YOLO能够在高密度交通和高动态环境等具有挑战性的场景中实现稳健的性能。
实验结果
通过量化指标和定性观察分析了DGNN-YOLO框架的性能。实验结果表明,DGNN-YOLO在各种复杂条件下都能有效地检测和跟踪小物体。
数据集信息
实验是在针对交通监控任务的_i2目标检测数据集_上进行的。该数据集包括在各种条件下的多样交通场景,如遮挡、不同光线和密集的物体分布。该数据集包括50,000张带有24个物体类别的标注图像,包括车辆(汽车、公共汽车、卡车)、非机动物体(自行车、人力车)和行人(人)。数据划分分为两个主要组。训练组占80%,包括40,000张图像,而验证组占20%,总计10,000张图像。
为了应对类别不平衡问题,数据增强技术如翻转、缩放和亮度调整已经得到应用。图3中的类别分布突显了某些类(如Car和Bus)占主导地位,而其他类(如ambulance)则被低估。这种分布强调了在处理不平衡数据集时采用健壮的训练策略的重要性。
数据集网址:https://universe.roboflow.com/data-48lkx/i2-waurd.
比较实验
我们将提出的DGNN-YOLO与YOLOv11基准模型以及结合了Faster R-CNN的模型进行了比较。DGNN-YOLO在检测小物体方面表现出色,如表2所示,YOLO11+DGNN在所有模型中实现了最高的精确度(0.8382)和召回率(0.6875)。此外,它对于mAP@0.5和mAP@0.5:0.95的性能也优于其他模型,分别取得了0.7830和0.6476的值。这些结果证实了将DGNN引入YOLO11的有效性,尤其是在改善小目标检测精度方面。
YOLO11的性能在去掉DGNN后有所下降,其精确度为0.8176,召回率为0.5248。YOLO11在0.5 mAP和0.5:0.95 mAP方面的表现也显著低于带DGNN的YOLO11,这说明DGNN在改善空间关系建模方面起着关键作用。其他模型,如YOLO10、YOLO9和YOLO8,表现出逐步降低的性能指标,而Faster R-CNN实现了竞争力的结果,但仍落后于YOLO11+DGNN。这种分析突显了DGNN-YOLO在解决小目标检测和跟踪挑战方面的优越性能。
验证分析
图5展示了DGNN-YOLO模型的检测能力,证明了其在真实交通场景中识别和定位不同类别多个物体的性能。检测到的物体,如“三轮车”、“汽车”、“公共汽车”、“摩托车”、“人”等,都包含有边界框和类别标签。该模型有效地识别出重叠的物体,并区分大小实例,从而突显其在处理多样物体类型、大小和空间布局的复杂场景中的强大鲁棒性。准确的检测表明模型具有有效泛化的能力,并适用于实际环境中的多目标检测任务。
精度-召回分析
图6显示了DGNN-YOLO模型在多个目标类别上的性能。值得注意的是,该模型在0.5平均mAP上的平均值为0.812,突显了其在大多数类别上的强大检测能力。高性能类别如"Leguna"(0.995)、"Scooty"(0.995)和"Bus"(0.986)表明了模型在识别独特物体类型方面的熟练程度,可能得益于明显的类别特定特征。然而,像"Ambulance"(0.036)和"Special-Purpose-Vehicle"(0.199)这样的类别明显表现不佳,可能归因于训练样本有限或特征区分不足。一些类别(如"Truck")在更高召回水平上的精度急剧下降,表明在全面检测下保持一致置信水平存在挑战。总体而言,DGNN-YOLO展示了强大的泛化能力,尽管优化低代表性或视觉相似类别的性能可能进一步提高其实用性。
如图7所示,DGNN-YOLO模型的混淆矩阵,展示了其在多个类别上的分类性能。每一行对应预测标签,每一列对应真实标签。对角线上的条目表示每个类别中正确分类的实例,较深的蓝色表示较高的计数,反映更好的性能。非对角线上的条目表示错误分类,较浅的蓝色突出错误频率较低。例如,模型在识别诸如“人”、“公交车”和“摩托车”等类别时表现良好,因为这些类别在对角线上具有较高的值。然而,它在与某些较小的类别(如“吉普车”和“专用车辆”)的识别上存在困难,这些类别在对角线上的值较低,并且明显错误分类数量较多。附带的彩色条带视觉上表示预测的密度,某些类别的预测数量甚至达到了400以上,如“汽车”和“人”。这个矩阵强调了DGNN-YOLO的优缺点,表明其在识别常见类别方面的有效性,同时也暗示了可能需要改进的潜在领域,即识别较少出现的类别或视觉上相似的类别。
消融实验
消融实验对提出的YOLO11-DGNN框架进行了全面的分析,评估了在不同配置下的鲁棒性,并突显了其空间和时间组件的贡献。表3呈现了在五个配置(全DGNN框架、无外观嵌入的DGNN、无速度相似度的DGNN、无时间特征的DGNN和恒定边缘权重)下定量指标(mAP、精确度、召回率和每秒帧数)。全DGNN框架实现了最高的mAP(0.716)、精确度(0.776)和召回率(0.636),处理速度约为60 FPS,证实了其优越性能。去除外观嵌入或速度相似度会导致mAP和召回率的适度下降,这强调了这些因素在维持鲁棒目标关联中的重要性。排除时间特征的影响更大,导致mAP和召回率最低,这表明时间动力学在跟踪移动目标中起着关键作用。使用恒定边缘权重会降低框架的适应能力,导致精确度和召回率的轻微下降。
结论
DGNN-YOLO框架提出了一种在动态交通环境中检测和跟踪小物体的创新方法,它将YOLO11的精确检测功能与DGNN的鲁棒时空建模功能相结合。这些技术相结合后取得了卓越的效果,精确度达到0.8382,召回率达到0.6875,mAP@0.5:0.95 达到0.6476,超过了现有最先进方法的性能。
尽管该框架具有令人印象深刻的能力,但它仍有一些改进的空间,例如对重叠目标的偶尔分类错误以及代表性不足的类别。
为了提高实时性能,在速度和精度都很重要的实际应用中优化框架非常重要。Grad-CAM、Grad-CAM++和Eigen-CAM等先进的可视化工具使模型更易于理解。这有助于建立信任,使调试更加简单。不断完善这些功能将提高框架的透明度和可用性,使DGNN-YOLO成为交通监控和安全系统的领先工具。随着我们对该框架的不断开发,我们可以提供更安全、更高效的城市交通解决方案。我们注意到的局限并非挫折,而是指导未来改进和研究的机遇。这将有助于确立DGNN-YOLO在下一代智能交通系统中的关键地位。
Coovally AI模型训练与应用平台
Coovally AI模型训练与应用平台,它整合了整合30+国内外开源社区1000+模型算法以及各类公开识别数据集。
如果你也想进行船舶分类检测等数据模型训练,直接登Coovally,数据集一键分享,开源算法直接下载使用!
公开数据集可一键免费分享给用户平台已部署1000+模型算法同时Coovally还推出CPU版本,开源模型算法下载另存,数据集上传也可以直接进行零代码训练,而且无需GPU!
来源:小码科普君