QUICK REVIEW

[論文レビュー] CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

Yuhong Li, Xiaofan Zhang|arXiv (Cornell University)|Feb 27, 2018

Video Surveillance and Tracking Methods参考文献 32被引用数 168

ひとこと要約

CSRNet は、VGG-16 フロントエンドと膨張バックエンドを用いた深層のエンドツーエンド CNN を導入し、混雑したシーンで高品質の群衆密度マップと正確なカウントを生成し、最先端手法を上回る。

ABSTRACT

We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present high-quality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF_CC_50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the ShanghaiTech Part_B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-the-art method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-of-the-art approach.

研究の動機と目的

高度に混雑したシーンにおける正確な群衆カウントと密度マップ生成を動機づける。
解像度を保持しつつ受容野を拡張するデータ駆動のエンドツーエンド CNN の開発。
ディレイテッド畳み込みを用いた深い単一列モデルによって、多列 CNN アーキテクチャを上回る。

提案手法

最初の 10 層までをフロントエンドとして VGG-16 を2D特徴抽出に使用。
バックエンドのプーリングを膨張畳み込みに置換し、解像度を低下させず受容野を拡大。
予測密度マップと地上 truth 密度マップとの間のユークリッド損失でエンドツーエンドで訓練。
ジオメトリ適応Gaussianカーネルを用いて地上 truth 密度マップを生成。
データ拡張とエンドツーエンドの密度マップとカウント推定フレームワークを適用。

実験結果

リサーチクエスチョン

RQ1膨張畳み込みを用いたより深い単一列 CNN が、多列アーキテクチャを密集した群衆カウントで上回れるか？
RQ2膨張を用いて空間解像度を保持することは、ベンチマーク全体で密度マップの品質とカウント精度を向上させるか？
RQ3CSRNet の密度マップはデータセット間で PSNR/SSIM の観点で地上 truth 密度マップと比較してどうか？

主な発見

CSRNet は ShanghaiTech Part_A (68.2/115.0) および Part_B (10.6/16.0) において prior methods を上回る最先端の MAE/MSE を達成。
UCF_CC_50 では CSRNet は MAE 266.1, MSE 397.5 を達成し、いくつかのベースラインを上回る。
WorldExpo’10 の5シーンで最高の平均性能を示す（平均 MAE 8.6, SSIM 0. ?）。
UCSD では CSRNet は MAE 1.16、MSE 1.47 を報告し、MCNN と競合。
TRANCOS 車両カウントでは CSRNet は GAME(0)=3.56, GAME(1)=5.49, GAME(2)=8.57, GAME(3)=15.04 を達成し、堅牢な一般化を示す。
CSRNet は ShanghaiTech Part_A で PSNR 23.79、SSIM 0.76 で MCNN および CP-CNN を上回る密度マップ品質を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。