QUICK REVIEW

[論文レビュー] Learn to Scale: Generating Multipolar Normalized Density Maps for Crowd Counting

Chenfeng Xu, Kai Qiu|arXiv (Cornell University)|Jul 29, 2019

Video Surveillance and Tracking Methods参考文献 32被引用数 27

ひとこと要約

本論文は、パッチ単位の密度マップをクラスタ化された密度レベルに正規化するためのマルチポールセンター損失を用いる、学習によるスケーリングモジュール（L2SM）を提案する。これにより、1つのCNNが極端な密度変動に強く対処できるようになる。本手法は最先端の性能を達成し、ShanghaiTech Part A、Part B、UCF_CC_50、UCF-QNRFにおいて、それぞれ4.2%、14.3%、27.1%、20.1%のMAEの向上を達成した。

ABSTRACT

Dense crowd counting aims to predict thousands of human instances from an image, by calculating integrals of a density map over image pixels. Existing approaches mainly suffer from the extreme density variances. Such density pattern shift poses challenges even for multi-scale model ensembling. In this paper, we propose a simple yet effective approach to tackle this problem. First, a patch-level density map is extracted by a density estimation model and further grouped into several density levels which are determined over full datasets. Second, each patch density map is automatically normalized by an online center learning strategy with a multipolar center loss. Such a design can significantly condense the density distribution into several clusters, and enable that the density variance can be learned by a single model. Extensive experiments demonstrate the superiority of the proposed method. Our work outperforms the state-of-the-art by 4.2%, 14.3%, 27.1% and 20.1% in MAE, on ShanghaiTech Part A, ShanghaiTech Part B, UCF_CC_50 and UCF-QNRF datasets, respectively.

研究の動機と目的

極端な密度ばらつきに起因する単一モデルの一般化性能の低下という課題に対処すること。
著しく異なる集団密度を持つ画像間での密度パターンのずれを低減すること。
深層密度推定モデルのロバスト性と転送可能性を向上させること。
エンド・トゥ・エンドで訓練可能な正規化を用いてスケール不変な密度表現の有効な学習を可能とすること。
多様な集団計数データセットにおいて優れた性能と一般化能力を示すこと。

提案手法

スケール保存ネットワーク（SPN）が入力画像から初期の密度マップを生成する。
密度マップがK×Kのパッチに分割され、グローバルな密度統計に基づいてG個の密度レベルグループにグループ化される。
各パッチは、オンラインでのセンター更新を用いて、学習可能なスケール係数によってその密度をクラスタ中心に一致させる。
すべてのパッチがグループ内で共通の中心に収束するよう、マルチポールセンター損失（MPCL）が導入され、パッチ内ばらつきが低減される。
スケーリングされたパッチレベル出力を連結することで、最終的な密度マップが再構築される。
L2SMモジュール全体はエンド・トゥ・エンドで微分可能であり、任意のCNNベースの密度推定フレームワークに統合可能である。

実験結果

リサーチクエスチョン

RQ1学習されたスケーリングによる密度分布の凝縮は、密度が著しく変動する画像において性能向上をもたらすか？
RQ2単一中心または中心なしの監視と比較して、複数のクラスタ中心（マルチポール中心）を用いることで、密度ばらつきの処理にどのような差が生じるか？
RQ3本手法は、顕著に異なる密度分布を示すデータセット間でどの程度一般化できるか？
RQ4固定または静的正規化と比較して、オンラインでのセンター学習戦略はモデルのロバスト性を向上させるか？
RQ5教師強化学習による変換とパッチ分割戦略の影響は、モデルの性能と推論効率にどのような影響を及えるか？

主な発見

提案手法は、ShanghaiTech Part Aデータセットにおいて、最先端手法比でMAEで4.2%の相対的改善を達成した。
UCF-QNRFでは、先行手法と比較してMAEを27.1%低減し、極端な密度状況下でも優れた性能を示した。
クロスデータセット転送設定において、D-ConvNet-v1 や MCNN よりも大幅に優れた性能を示し、優れた一般化能力を示した。
5つの中心を使用し、すべてのK×K領域を再予測する場合、1枚あたりの推論時間がたった0.068秒増加するにとどまり、負荷はほとんどないことがわかった。
適切な重み（λ₂）を用いたマルチポールセンター損失は、精度を顕著に向上させ、損失重みの広い範囲で性能が安定した。
ヘッド間距離を拡大することで教師強化学習の変換を施すことで、密集領域における密度パターンのずれが低減され、予測精度が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。