Skip to main content
QUICK REVIEW

[論文レビュー] Switching Convolutional Neural Network for Crowd Counting

Deepak Babu Sam, Shiv Surya|ePrints-IISc. (Indian Institute of Science Bangalore)|Aug 1, 2017
Video Surveillance and Tracking Methods参考文献 20被引用数 99
ひとこと要約

Switch-CNN は、スイッチ分類器を介してパッチを異なる受容野を持つ専門的な CNN 回帰器へ切り替え、主要データセットで最先端の crowd counting を達成します。

ABSTRACT

We propose a novel crowd counting model that maps a given crowd scene to its density. Crowd analysis is compounded by myriad of factors like inter-occlusion between people due to extreme crowding, high similarity of appearance between people and background elements, and large variability of camera view-points. Current state-of-the art approaches tackle these factors by using multi-scale CNN architectures, recurrent networks and late fusion of features from multi-column CNN with different receptive fields. We propose switching convolutional neural network that leverages variation of crowd density within an image to improve the accuracy and localization of the predicted crowd count. Patches from a grid within a crowd scene are relayed to independent CNN regressors based on crowd count prediction quality of the CNN established during training. The independent CNN regressors are designed to have different receptive fields and a switch classifier is trained to relay the crowd scene patch to the best CNN regressor. We perform extensive experiments on all major crowd counting datasets and evidence better performance compared to current state-of-the-art methods. We provide interpretable representations of the multichotomy of space of crowd scene patches inferred from the switch. It is observed that the switch relays an image patch to a particular CNN column based on density of crowd.

研究の動機と目的

  • 密度、視点、遮蔽の変動の下での群衆カウントの課題に対処する。
  • 画像内の局所的な密度変動を活用し、パッチを専門の回帰器へルーティングする。
  • 差分、結合、スイッチ訓練段階を持つエンドツーエンドの Switch-CNN フレームワークを開発する。

提案手法

  • 異なる受容野を持つ3つの CNN 回帰器を用いて、異なる群衆スケールに対処する。
  • 各画像を9パッチに分割し、密度に最も適した回帰器へ各パッチをルーティングする。
  • VGG-16 バックボーンと GAP に基づくスイッチ分類器を訓練してパッチを回帰器へ割り当てる。
  • 回帰器を事前訓練し、パッチごとのカウント精度を最大化する差分訓練を適用し、次に結合訓練を行いスイッチと回帰器を共適応させる。
  • ジオメトリ適応カーネルまたはデータセットの特徴に応じた固定拡散を用いて地上 truth 密度マップを生成する。
  • MAEとMSEを用いて標準の群衆カウントベンチマークで評価する。

実験結果

リサーチクエスチョン

  • RQ1パッチレベルで受容野の異なる回帰器間のスイッチングにより、密度の局在化とカウント精度を混雑したシーンで改善できるか。
  • RQ2jointly trained のスイッチ分類器と多様な回帰器は、密度と視点が異なるデータセット間で単一モデルを超えるパフォーマンスを示すか。
  • RQ3差分訓練は、密度ベースのグループへの画像パッチの分割とその後のカウント性能にどのように影響するか。

主な発見

  • Switch-CNN は ShanghaiTech Part A および Part B で最先端の MAE および MSE を達成し、MCNN および他の手法を上回った。
  • ShanghaiTech Part A では Switch-CNN は MAE 90.4 と MSE 135.0 を、Part B では MAE 21.6 と MSE 33.4 を達成。
  • UCF_CC_50 では Switch-CNN は MAE 318.1、MSE 439.2、スイッチ精度 54.3% を達成。
  • UCSD では Switch-CNN が MAE 1.62、MSE 2.10、スイッチ精度 60.9% を報告。
  • WorldExpo’10 では Switch-CNN は 視点マップありで平均 MAE 9.4、視点マップなしで 11.2、いくつかのベースラインを上回る。
  • 差分訓練は密度に整列したパッチの多分岐を生み出し、結合訓練はスイッチと回帰器の堅牢性をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。