[論文レビュー] CrowdNet: A Deep Convolutional Network for Dense Crowd Counting
CrowdNetは深層と浅層の全畳み込みネットワークを組み合わせて、画像から密度の高い群衆密度マップを予測し、スケール変動に対処する多尺度データ拡張を用い、UCF_CC_50で最先端のMAEを達成しています。
Our work proposes a novel deep learning framework for estimating crowd density from static images of highly dense crowds. We use a combination of deep and shallow, fully convolutional networks to predict the density map for a given crowd image. Such a combination is used for effectively capturing both the high-level semantic information (face/body detectors) and the low-level features (blob detectors), that are necessary for crowd counting under large scale variations. As most crowd datasets have limited training samples (<100 images) and deep learning based approaches require large amounts of training data, we perform multi-scale data augmentation. Augmenting the training samples in such a manner helps in guiding the CNN to learn scale invariant representations. Our method is tested on the challenging UCF_CC_50 dataset, and shown to outperform the state of the art methods.
研究の動機と目的
- 静止画像から高密度な場面における正確な群衆密度推定を動機づける。
- 高レベルの意味情報と低レベルのブロブパターンの両方を活用するネットワークの開発。
- 多尺度データ拡張を用いて限られた訓練データに対処。
- 解析および安全用途のために密な密度マップと総群衆数を生成。
提案手法
- VGG-16に類似した深層CNNを全結合層を削ぎ落として、1/8解像度でピクセルごとの密度予測を行う。
- 小さな頭部ブロブを検出し、深層特徴を補完する浅い3層CNNを使用。
- 深層と浅層の予測を1x1畳み込みで結合し、最終密度マップの入力サイズへアップサンプル。
- 総数を保持するためにガウスブラー処理された頭部注釈から作成されたグラウンドトゥルースを用いて訓練。
- スケール0.5から1.2のマルチスケール画像パッチで訓練を拡張し、スケール変動と群衆密度に対処するため高密度パッチを過サンプリング。
実験結果
リサーチクエスチョン
- RQ1極めて高密度の場面で、深層+浅層のハイブリッドCNNは正確に群衆密度マップを予測できるか。
- RQ2多尺度データ拡張は群衆計数におけるスケール変動や遮蔽に対する頑健性を向上させるか。
- RQ3生成されたガウス地上真実はピクセル単位の密度推定モデルの学習に有効か。
- RQ4深層と浅層の表現を組み合わせることが計数精度に与える影響は何か。
主な発見
| 手法 | 平均絶対誤差 |
|---|---|
| Learning to Count [12] | 493.4 |
| Density-aware Detection [16] | 655.7 |
| FHSc [8] | 468.0 |
| Cross-Scene Counting [19] | 467.0 |
| Proposed | 452.5 |
- 従来法と比較してUCF_CC_50で最先端のMAE(452.5)を達成。
- 深層と浅層のネットワークを組み合わせると、単独のネットワーク(Deep: 681、Shallow: 1107)よりも良いMAE(645)を得る。
- 高密度領域を対象とするデータ拡張により訓練パッチがほぼ倍増(26,385から50,891へ)し、MAEが(725から645へ)低減。
- ほとんどの画像で実際の数値に近いカウントを推定できるが、 extremely dense cases (>2500 people) では過小評価する。
- 密度マップと総数は予測密度を総和して得られ、ネットワークはL2損失で訓練される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。