摘要:录用信息:ICCV 2025 highlight论文题目:Video Individual Counting for Moving Drones论文作者:Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J.
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台
本篇分享 ICCV 2025 highlight 论文Video Individual Counting for Moving Drones,介绍动态无人机视角下密集行人视频计数、跟踪新基准!
随着无人机的普及,无人机在计算机视觉中的应用越来越广泛,例如交通管理、公共安全、旅游景点的人群分析等。相比固定摄像头,无人机具有机动灵活、视野广阔的优势,能够捕捉到更加多样和复杂的人群场景。
缺少数据集:现有数据大多基于固定摄像头或者低动态无人机,缺乏动态无人机视角下的密集人群视频数据集。缺少算法:传统的定位 + 跨帧匹配算法在高动态、密集人群场景中误差累积严重,难以胜任视频级别的人群计数。数据集示例
多样场景:涵盖商圈、景点等真实复杂的人群聚集地。条件变化:包含不同飞行高度、拍摄角度、光照条件,全面模拟无人机实际应用场景。高质量标注:精确的行人头部框标注完整的行人身份ID标注,可支持视频行人计数与行人跟踪任务这意味着,MovingDroneCrowd 同时也是动态无人机视角下密集行人跟踪算法的挑战性基准。
算法框架
为了突破传统定位+匹配方法在复杂场景下的局限,我们提出了SDNet(Shared Density-Map guided Network),其核心思想是利用密度图差分来完成视频行人计数:
1.共享密度图(Shared Density Map)
给定相邻两帧,计算每一帧的共享密度图,包含了当前帧与相邻帧中共同出现的行人的密度图。2.Inflow & Outflow Density Map 计算
用全局密度图减去共享密度图,得到 新进入 (Inflow) 和 离开 (Outflow) 的行人密度图。3.视频级别计数
将序列中每一帧的inflow density map累积,即可得到视频片段中身份不同行人的总数。通过绕开对“定位 + 跨帧匹配”的依赖,SDNet在复杂动态无人机场景中展现出了更高的稳健性与准确性。
实验结果
基于多目标跟踪的算法:在复杂无人机场景中表现不佳,误差大,鲁棒性差。基于定位+跨帧匹配的算法:比基于跟踪的方法略好,但是效果仍然不够理想。SDNet:取得了 显著优势,能够更加准确地完成视频人群计数。可视化结果
本方法计算的Inflow 和 Outflow 密度图反映了视野范围内行人的进入与离开情况。虽然仍存在一些错误响应,但它们的数值被有效地抑制了。
对比可视化结果
基于定位和跨帧匹配的方法在定位和匹配上都出现了明显错误,尤其是匹配几乎完全不正确。这表明,以往基于定位和匹配的方法难以有效应对动态且密集的场景。
我们的工作主要贡献包括:
数据集贡献:提出了首个动态无人机密集人群视频数据集MovingDroneCrowd,可用于视频人群计数与行人跟踪两大任务。算法贡献:设计了SDNet,通过先求共享密度图,再与全局密度图相减得到inflow密度图,有效解决了复杂动态场景下的视频计数难题。实验结论:在 MovingDroneCrowd 上,SDNet 显著优于其他相关方法。我们相信,MovingDroneCrowd 与 SDNet 将为无人机视觉、人群分析和智能监控提供新的研究思路。
来源:极市平台