[論文レビュー] Learning Independent Instance Maps for Crowd Localization
本論文は、 Independent Instance Maps segmentation (IIM) と微分可能な binarization モジュールを用いて群衆の個々の頭部を局在化する。NWPU-Crowd Localization で最先端の結果を達成し、複数のデータセットで高い性能を発揮する。
Accurately locating each head's position in the crowd scenes is a crucial task in the field of crowd analysis. However, traditional density-based methods only predict coarse prediction, and segmentation/detection-based methods cannot handle extremely dense scenes and large-range scale-variations crowds. To this end, we propose an end-to-end and straightforward framework for crowd localization, named Independent Instance Map segmentation (IIM). Different from density maps and boxes regression, each instance in IIM is non-overlapped. By segmenting crowds into independent connected components, the positions and the crowd counts (the centers and the number of components, respectively) are obtained. Furthermore, to improve the segmentation quality for different density regions, we present a differentiable Binarization Module (BM) to output structured instance maps. BM brings two advantages into localization models: 1) adaptively learn a threshold map for different images to detect each instance more accurately; 2) directly train the model using loss on binary predictions and labels. Extensive experiments verify the proposed method is effective and outperforms the-state-of-the-art methods on the five popular crowd datasets. Significantly, IIM improves F1-measure by 10.4% on the NWPU-Crowd Localization task. The source code and pre-trained models will be released at https://github.com/taohan10200/IIM.
研究の動機と目的
- 密度やボックスベースの手法を超えた極めて密な群衆における頭部の正確な局在化を促進する。
- 各インスタンスが非重複で連結成分を介して抽出可能な Independent Instance Maps (IIM) を提案する。
- 構造化されたインスタンスマップを生成する微分可能な Binarization Module (BM) を導入する。
- スケール変動のロバスト性を確保するため、ピクセル領域ごとに閾値を適応させる Pixel-level Binarization Module を組み込む。
- 標準的な群衆データセットにおける優れた局在化と競争力のあるカウント性能を実証する。
提案手法
- 群衆領域を信頼度マップとして表現し、それらを独立した連結成分に分割して頭部中心とカウントを取得する。
- 信頼度マップを二値のインスタンスマップへ変換する微分可能な二値化層を導入し、追加の監視を必要とせずに変換を行う。
- 閾値を画像レベルまたはピクセルレベルで生成する閾値エンコーダを埋め込む。
- Pixel-level Binarization Module (PBM) を用いて、スケール変動と空間分布に適応するピクセルごとの閾値を生成する。
- 信頼度マップの回帰損失と閾値マップの L1 損失を組み合わせて訓練し、勾配の流れを制御してコンポーネント間の逆伝播をバランスさせる。
- 独立したインスタンス内の中心を抽出し、4連結成分を検出して局在化を出力する。
実験結果
リサーチクエスチョン
- RQ1独立した非重複インスタンスマップは、密度推定や検出ベースのアプローチと比べて超高密度の群衆で局在化精度を向上させることができるか。
- RQ2微分可能な二値化レイヤは、エンドツーエンドの最適化と、极小の頭部や遮蔽された頭部のエッジ分割を改善するか。
- RQ3画像レベルおよびピクセルレベルの閾値学習戦略は、広範なスケール変動の下で局在化とカウントを改善するか。
- RQ4信頼度予測器と統合された閾値エンコーダは、さまざまな群衆密度に適応して局在化の堅牢性を向上させるか。
主な発見
- IIM は NWPU-Crowd で局在化の最先端を達成し、Localization ベンチマークでテストセットの F1-m = 76.2%、MAE = 87.1 で1位にランク付けされている(Table II に記載)。
- 本手法は NWPU-Crowd Localization で従来手法より約 9.0% F1-measure を向上させる。
- Pixel-level threshold learning (PBM) は image-level thresholding (IBM) よりもより精密な局在化を提供する。
- IIM は複数のデータセットで堅牢な性能を発揮し、ネガティブサンプルや密集した群衆に対して頑健性を示す。
- 本手法は高い精度と競争力のある再現率を示し、ShanghaiTech Part A/B、UCF-QNRF、FDST における局在化タスクで、いくつかの検出ベースおよび密度ベースの手法を上回っている(Tables IV および関連結果に要約)。
- アブレーション研究は、IBM/PBM が固定閾値より有意な向上を示し、局在化目的からの L1 損失と勾配フローを組み込む有益な影響を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。