QUICK REVIEW

[論文レビュー] Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting

Yuehai Chen, Jing Yang|arXiv (Cornell University)|Jun 23, 2021

Video Surveillance and Tracking Methods参考文献 55被引用数 23

ひとこと要約

本稿では、集団数え上げのための人間の上位から下位への視覚的認知をモデル化する、領域に注意を払うフィードバックネットワークRANetを提案する。優先度マップを生成して集団領域を強調し、特徴量と優先度の間のグローバル類似度を計算する領域に注意を払うブロックを用いることで、文脈モデリングと受容野のサイズを向上させ、背景ノイズやスケール変動の課題にもかかわらず、複数の集団数え上げベンチマークで最先端の性能を達成する。

ABSTRACT

Background noise and scale variation are common problems that have been long recognized in crowd counting. Humans glance at a crowd image and instantly know the approximate number of human and where they are through attention the crowd regions and the congestion degree of crowd regions with a global receptive field. Hence, in this paper, we propose a novel feedback network with Region-Aware block called RANet by modeling humans Top-Down visual perception mechanism. Firstly, we introduce a feedback architecture to generate priority maps that provide prior about candidate crowd regions in input images. The prior enables the RANet pay more attention to crowd regions. Then we design Region-Aware block that could adaptively encode the contextual information into input images through global receptive field. More specifically, we scan the whole input images and its priority maps in the form of column vector to obtain a relevance matrix estimating their similarity. The relevance matrix obtained would be utilized to build global relationships between pixels. Our method outperforms state-of-the-art crowd counting methods on several public datasets.

研究の動機と目的

既存のディーブラーニング手法が妨げられる背景ノイズとスケール変動を解消すること。
集団領域に関する事前知識によって注意が誘導される、人間らしい上位から下位への視覚的認知をモデル化すること。
グローバル文脈情報を使って有効な受容野を拡大することで、特徴表現を向上させること。
標準的な集団数え上げベンチマークで最先端の性能を達成すること。

提案手法

背景ノイズの干渉を低減するため、集団領域の可能性が高いことを示す優先度マップを生成するフィードバックアーキテクチャを提案する。
フラット化された入力画像と優先度マップを列ベクトルとして測定した類似度によって、関連性行列を計算する領域に注意を払うブロックを導入する。
関連性行列を用いて特徴量を再重み付けし、グローバル文脈をエンコードし、遠く離れたピクセル間の関係性を強化する。
密な集団シーンにおけるスケール変動をよりよく扱うために、グローバル受容野メカニズムを採用する。
注目に基づく特徴量の最適化とグローバル文脈の集約を組み合わせ、密度推定を向上させる。
密度マップ予測のための標準的な回帰損失を用いて、エンドツーエンドで学習する。

実験結果

リサーチクエスチョン

RQ1人間の上位から下位への視覚的認知をモデル化することで、複雑なシーンにおける集団数え上げの正確性が向上するか？
RQ2集団数え上げネットワークにおいて、グローバル文脈と長距離依存関係を効果的にモデル化する方法は何か？
RQ3優先度マップを生成するフィードバックメカニズムは、集団領域への注目を強化し、背景ノイズを抑制するか？
RQ4有効な受容野を拡大することで、スケール変動が生じる集団シーンでの性能がどの程度向上するか？
RQ5類似度ベースのメカニズムを用いてグローバル文脈を統合することは、局所的またはピクセル単位の注目よりも集団数え上げで優れた性能を発揮するか？

主な発見

RANetは、UCF-QNRF、ShanghaiTech、UCSDを含む複数の公開集団数え上げデータセットで最先端の性能を達成した。
優先度マップを生成するフィードバックネットワークにより、背景のごみへの注目が顕著に減少し、耐障害性が向上した。
領域に注意を払うブロックは、グローバルな関係性をモデル化することで有効な受容野を効果的に拡大し、スケール一般化を強化した。
定量的評価では、すべてのベンチマークでMAEとMSEが一貫して向上し、先行のSOTA手法よりも低い誤差率を示した。
アブレーションスタディにより、優先度マップ生成とグローバル文脈モデリングの両方のコンponentが性能向上に不可欠であることが確認された。
特にスケール変動と被覆が顕著に顕著な高密度シーンにおいても、強力な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。