QUICK REVIEW

[論文レビュー] Perspective-Guided Convolution Networks for Crowd Counting

Zhaoyi Yan, Yuchen Yuan|arXiv (Cornell University)|Sep 16, 2019

Video Surveillance and Tracking Methods参考文献 26被引用数 34

ひとこと要約

PGCNet は視点によるガイド付き畳み込みを用いて、シーン内のスケール変動に合わせた特徴平滑化を適応させ、視点推定ブランチと新しい Crowd Surveillance データセットを備え、複数のベンチマークで最先端の結果を達成します。

ABSTRACT

In this paper, we propose a novel perspective-guided convolution (PGC) for convolutional neural network (CNN) based crowd counting (i.e. PGCNet), which aims to overcome the dramatic intra-scene scale variations of people due to the perspective effect. While most state-of-the-arts adopt multi-scale or multi-column architectures to address such issue, they generally fail in modeling continuous scale variations since only discrete representative scales are considered. PGCNet, on the other hand, utilizes perspective information to guide the spatially variant smoothing of feature maps before feeding them to the successive convolutions. An effective perspective estimation branch is also introduced to PGCNet, which can be trained in either supervised setting or weakly-supervised setting when the branch has been pre-trained. Our PGCNet is single-column with moderate increase in computation, and extensive experimental results on four benchmark datasets show the improvements of our method against the state-of-the-arts. Additionally, we also introduce Crowd Surveillance, a large scale dataset for crowd counting that contains 13,000+ high-resolution images with challenging scenarios.

研究の動機と目的

視点によって引き起こされる群衆カウントにおけるシーン内の極端なスケール変動に対処する。
受容野を空間的に適応させる学習可能な perspective-guided convolution (PGC) モジュールを導入する。
視点推定ブランチを組み込み、視点アノテーションの有無にかかわらずエンドツーエンドのトレーニングを可能にする。
堅牢なベンチマークのための大規模な高解像度群衆カウントデータセットである Crowd Surveillance を提案する。
複数の公開データセットで最先端の結果を示す。

提案手法

空間的に変動するガウス平滑とその後の空間的不変畳み込みを組み合わせる Perspective-Guided Convolution (PGC) を導入する。
学習可能な視点マップからシグモイドベースの正規化と標準偏差への学習された線形関係を用いてブラムップを計算する。
GaussianカーネルのPCAベース分解を用いて、計算量を削減しつつ空間的に変動する平滑化を効率的に近似する。
PGC ブロックを1列バックボーンに埋め込み、密度マップ推定のために5つの PGC ブロックを積み重ねて PGCNet を形成する。
3段階のオートエンコーダ戦略で訓練される視点推定ブランチ (PENet) を追加し、視点アノテーションの有無にかかわらず教師ありまたは弱教師あり学習を可能にし、エンドツーエンド学習を可能にする。
ROIマスクを備えた Crowd Surveillance データセット（13,945 枚の高解像度画像）を導入し、群衆カウント研究を前進させる。

実験結果

リサーチクエスチョン

RQ1どのように視点情報を活用して、単一列のCNNにおけるシーン内の連続的な群衆スケール変動を扱えるか？
RQ2視点アノテーションなしでエンドツーエンドの群衆カウントをサポートするよう、視点推定ブランチを訓練できるか？
RQ3マルチスケールやダイレイテッドアーキテクチャと比較して、 perspective-guided convolutions を挿入する利点は何か？
RQ4提案された Crowd Surveillance データセットは、解像度と多様性の点で既存のベンチマークとどのように比較されるか？

主な発見

データセット/シナリオ	MAE	MSE
ShanghaiTech Part A	57.0	86.0
ShanghaiTech Part B	8.8	13.7
WorldExpo’10 Avg	8.1
Crowd Surveillance	7.2	15.6

PGCNet は ShanghaiTech Part A（57.0 MAE, 86.0 MSE）および Part B（8.8 MAE, 13.7 MSE）で最先端または競合的な MAE/MSE を達成。
WorldExpo’10 では、シーン全体で最も良い平均 MAE（8.1）を達成し、ベースラインより大幅に改善。
UCF_CC_50 では、PENet をエンドツーエンドで訓練した場合、MAE が 244.6 まで低下（CSRNet ベースライン約264.0 に対して）。
Crowd Surveillance では、エンドツーエンド訓練で MAE が 7.2 を達成（いくつかのベースラインの 9.8–16.4 範囲に対して）。
PENet の視点推定器は堅牢な視点マップを提供し、PENet を用いたエンドツーエンド学習は、PENet ガイドの事前学習のみより追加の MAE 改善を生む。
Crowd Surveillance は 13,945 枚の高解像度画像と 386k 以上のラベル付き人数を提供し、群衆カウントベンチマークの規模と難易度条件を大幅に拡張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。