QUICK REVIEW

[論文レビュー] Drone-based Joint Density Map Estimation, Localization and Tracking with Space-Time Multi-Scale Attention Network

Longyin Wen, Dawei Du|arXiv (Cornell University)|Dec 4, 2019

Video Surveillance and Tracking Methods参考文献 44被引用数 27

ひとこと要約

本論文は、ドローンが撮影した密集人群の動画における同時密度マップ推定、局所化、トラッキングを目的とした空間時間的マルチスケールアテンションネットワーク、STANetを提案する。マルチスケール特徴の集約、段階的アテンション、エンドツーエンドのマルチタスク学習を活用することで、STANetは3つのデータセット（新しく導入された大規模なドローン群 Crowdデータセットを含む）で最先端の性能を達成した。このデータセットには、112の高解像度動画クリップにまたがり、合計480万件の頭部アノテーションが含まれている。

ABSTRACT

This paper proposes a space-time multi-scale attention network (STANet) to solve density map estimation, localization and tracking in dense crowds of video clips captured by drones with arbitrary crowd density, perspective, and flight altitude. Our STANet method aggregates multi-scale feature maps in sequential frames to exploit the temporal coherency, and then predict the density maps, localize the targets, and associate them in crowds simultaneously. A coarse-to-fine process is designed to gradually apply the attention module on the aggregated multi-scale feature maps to enforce the network to exploit the discriminative space-time features for better performance. The whole network is trained in an end-to-end manner with the multi-task loss, formed by three terms, i.e., the density map loss, localization loss and association loss. The non-maximal suppression followed by the min-cost flow framework is used to generate the trajectories of targets' in scenarios. Since existing crowd counting datasets merely focus on crowd counting in static cameras rather than density map estimation, counting and tracking in crowds on drones, we have collected a new large-scale drone-based dataset, DroneCrowd, formed by 112 video clips with 33,600 high resolution frames (i.e., 1920x1080) captured in 70 different scenarios. With intensive amount of effort, our dataset provides 20,800 people trajectories with 4.8 million head annotations and several video-level attributes in sequences. Extensive experiments are conducted on two challenging public datasets, i.e., Shanghaitech and UCF-QNRF, and our DroneCrowd, to demonstrate that STANet achieves favorable performance against the state-of-the-arts. The datasets and codes can be found at https://github.com/VisDrone.

研究の動機と目的

ドローンベースの群衆カウント、局所化、トラッキングのための、大規模かつ公開可能なベンチマークの不足に対処すること。
空中動画からの密集人群における密度マップの推定、個体の局所化、トラジェクトリのトラッキングを統合的に実行するための包括的なディープラーニングフレームワークの開発。
時間的整合性とマルチスケール特徴を活用することで、変動する視点、スケール、視点の変化といった困難な状況下での性能向上。
ドローンベースの群衆分析分野で最大級の規模を誇る、DroneCrowdデータセットの作成を通じた包括的な評価ベンチマークの提供。

提案手法

STANetは、ドローンが撮影した動画における時間的整合性を活用するため、連続する動画フレームにわたるマルチスケール特徴マップを統合する。
集約された特徴に対して、粗いものから細かいものへ段階的に適用されるアテンション機構を用いて、特徴的な空間時間的表現を強調する。
密度マップ損失、局所化損失、関連付け損失を組み合わせたマルチタスク損失を用いて、エンドツーエンドで学習する。
予測された局所化マップにおける局所的最大値を検出することで、非最大抑制（NMS）を適用して頭部ポイントを局所化する。
最小コストフロー（min-cost flow）アルゴリズムを用いて、フレーム間の局所化された頭部ポイントを関連付けることで、完全な人物の軌道を生成する。
112の動画クリップ、33,600フレーム、70の多様な都市環境シーンにまたがり、480万件を超える頭部アノテーションを含む、新しい大規模データセットであるDroneCrowdを収集した。

実験結果

リサーチクエスチョン

RQ1統合的なディープラーニングフレームワークは、ドローンが撮影した密集人群の動画において、密度マップ推定、局所化、トラッキングを効果的に同時に実行できるか？
RQ2マルチスケール特徴と段階的アテンションを統合することで、複雑な空中群衆シナリオにおける性能がどのように向上するか？
RQ3時間的整合性とマルチタスク学習は、単一タスクアプローチと比較して、局所化とトラッキングの正確性をどの程度向上させるか？
RQ4新しく導入されたDroneCrowdデータセットを含む、困難なベンチマークにおいて、提案されたSTANetモデルは最先端の手法と比較してどのように性能を発揮するか？
RQ5局所化ヘッド、関連付けヘッド、マルチスケールモジュールなどの各コンponentが、統合的群衆分析全体の性能にどの程度寄与しているか？

主な発見

UCF-QNRFデータセットにおいて、STANetは平均絶対誤差（MAE）16.8を達成し、以前の最先端手法を上回った。
アブレーションスタディの結果、局所化ヘッドを削除するとMAEが1.1上昇し、密度推定におけるその重要性が裏付けられた。
マルチスケール特徴モジュールを削除すると、MAEは17.9から26.3に上昇し、性能に顕著な影響を与えることが示された。
局所化において、STANetはL-mAP 28.43%を達成し、2番目に良い手法（CSRNet）を14.03ポイント上回った。
群衆トラッキングにおいて、STANetはT-mAP 23.76%を達成し、2番目に良い手法（CSRNet-T）を14.08ポイント上回った。
アブレーションスタディにより、関連付けヘッドが軌道回復に寄与することが確認され、STANet-T（w/o ass）ではT-mAP 22.76%を達成し、完全なモデルよりわずかに低い水準であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。