[论文解读] Drone-based Joint Density Map Estimation, Localization and Tracking with Space-Time Multi-Scale Attention Network
本文提出STANet,一种时空多尺度注意力网络,用于无人机拍摄的密集人群视频中的联合密度图估计、定位与跟踪。通过利用多尺度特征聚合、渐进式注意力机制以及端到端多任务学习,STANet在三个数据集上实现了最先进性能,包括新提出的大型无人机人群数据集DroneCrowd,该数据集包含112段高分辨率视频片段,共480万个人头标注。
This paper proposes a space-time multi-scale attention network (STANet) to solve density map estimation, localization and tracking in dense crowds of video clips captured by drones with arbitrary crowd density, perspective, and flight altitude. Our STANet method aggregates multi-scale feature maps in sequential frames to exploit the temporal coherency, and then predict the density maps, localize the targets, and associate them in crowds simultaneously. A coarse-to-fine process is designed to gradually apply the attention module on the aggregated multi-scale feature maps to enforce the network to exploit the discriminative space-time features for better performance. The whole network is trained in an end-to-end manner with the multi-task loss, formed by three terms, i.e., the density map loss, localization loss and association loss. The non-maximal suppression followed by the min-cost flow framework is used to generate the trajectories of targets' in scenarios. Since existing crowd counting datasets merely focus on crowd counting in static cameras rather than density map estimation, counting and tracking in crowds on drones, we have collected a new large-scale drone-based dataset, DroneCrowd, formed by 112 video clips with 33,600 high resolution frames (i.e., 1920x1080) captured in 70 different scenarios. With intensive amount of effort, our dataset provides 20,800 people trajectories with 4.8 million head annotations and several video-level attributes in sequences. Extensive experiments are conducted on two challenging public datasets, i.e., Shanghaitech and UCF-QNRF, and our DroneCrowd, to demonstrate that STANet achieves favorable performance against the state-of-the-arts. The datasets and codes can be found at https://github.com/VisDrone.
研究动机与目标
- 为解决基于无人机的群体计数、定位与跟踪缺乏大规模公开基准的问题。
- 开发一种统一的深度学习框架,联合估计空中视频中密集人群的密度图、定位个体并跟踪轨迹。
- 通过利用时序一致性与多尺度特征,在可变视角、尺度与视角等复杂场景中提升性能。
- 通过构建DroneCrowd数据集,提供全面的评估基准,该数据集是目前规模最大的基于无人机的群体分析数据集。
提出的方法
- STANet利用连续视频帧中多尺度特征图的聚合,以挖掘无人机视频中的时序一致性。
- 在聚合特征上逐步应用从粗到精的注意力机制,以突出具有判别性的时空表征。
- 采用端到端训练方式,结合密度图损失、定位损失与关联损失的多任务损失函数,实现联合优化。
- 通过检测预测定位图中的局部极大值,应用非极大值抑制以定位头部点。
- 使用最小费用流算法将不同帧中的定位头部点进行关联,以生成完整的个体轨迹。
- 收集了一个新的大规模数据集DroneCrowd,包含112段视频片段、33,600帧,以及在70种不同城市场景中超过480万个人头标注。
实验结果
研究问题
- RQ1统一的深度学习框架能否在无人机拍摄的密集人群视频中有效实现密度图估计、定位与跟踪的联合处理?
- RQ2多尺度特征与渐进式注意力机制的融合在复杂空中人群场景中如何提升性能?
- RQ3与单任务方法相比,时序一致性与多任务学习在定位与跟踪精度方面提升了多少?
- RQ4在具有挑战性的基准(包括新引入的DroneCrowd数据集)上,所提出的STANet模型相较于最先进方法表现如何?
- RQ5各组件(如定位头、关联头、多尺度模块)对联合人群分析整体性能的贡献程度如何?
主要发现
- STANet在UCF-QNRF数据集上实现了16.8的平均绝对误差(MAE),优于以往最先进方法。
- 消融实验表明,移除定位头会使MAE增加1.1,验证了其在密度估计中的关键作用。
- 移除多尺度特征模块后,MAE从17.9上升至26.3,表明该模块对性能有显著影响。
- 在定位任务中,STANet实现28.43%的L-mAP,比第二好的方法(CSRNet)高出14.03个百分点。
- 在人群跟踪任务中,STANet实现23.76%的T-mAP,比第二好的方法(CSRNet-T)高出14.08个百分点。
- 消融实验确认关联头有助于轨迹恢复,STANet-T(无关联头)的T-mAP为22.76%,略低于完整模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。