QUICK REVIEW

[논문 리뷰] CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

Yuhong Li, Xiaofan Zhang|arXiv (Cornell University)|2018. 02. 27.

Video Surveillance and Tracking Methods참고 문헌 32인용 수 168

한 줄 요약

CSRNet은 VGG-16 프런트엔드와 확장된 백엔드를 사용한 심층 엔드투엔드 CNN을 도입하여 혼잡한 장면에서 고품질 군중 밀도 맵과 정확한 수를 생성하고, 최첨단 방법들을 능가합니다.

ABSTRACT

We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present high-quality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF_CC_50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the ShanghaiTech Part_B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-the-art method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-of-the-art approach.

연구 동기 및 목표

매우 혼잡한 장면에서 정확한 군중 수 추정 및 밀도 맵 생성을 촉진한다.
해상도를 유지하면서 수용 영역을 확장하는 데이터 기반의 엔드투엔드 CNN을 개발한다.
다중-컬럼 CNN 아키텍처를 능가하기 위해 확장된 컨볼루션을 사용하는 더 깊은 단일 컬럼 모델을 사용한다.

제안 방법

2D 특징 추출을 위한 프런트엔드로 VGG-16의 처음 10개 층까지 이용한다.
해상도를 감소시키지 않으면서 수용 영역을 확장하기 위해 백엔드에서 풀링을 확장된 합성곱(dilated convolutions)으로 대체한다.
예측된 밀도 맵과 ground-truth 밀도 맵 사이의 유클리드 손실로 엔드투엔드 학습한다.
지오메트리-적응 가우시안 커널(geometry-adaptive Gaussian kernels)을 사용하여 ground-truth 밀도 맵을 생성한다.
데이터 증강과 밀도 맵 및 수 추정용 엔드투엔드 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1확장된 합성곱을 갖는 더 깊은 단일-컬럼 CNN이 Dense 군중 수 추정에서 다중-컬럼 아키텍처를 능가할 수 있는가?
RQ2확장을 통한 공간 해상도 보존이 벤치마크 전반에서 밀도 맵 품질과 수 추정 정확도를 향상시키는가?
RQ3데이터셋 전반에서 CSRNet의 밀도 맵이 PSNR/SSIM 측면에서 ground-truth 밀도 맵과 어떻게 비교되는가?

주요 결과

CSRNet은 ShanghaiTech Part_A(68.2/115.0) 및 Part_B(10.6/16.0)에서 prior methods와 비교하여 최첨단 MAE/MSE를 달성한다.
UCF_CC_50에서 CSRNet은 MAE 266.1 및 MSE 397.5를 달성하여 여러 베이스라인을 능가한다.
WorldExpo’10의 다섯 장면에서 평균 성능이 최고를 기록한다(평균 MAE 8.6, SSIM 0. ?).
UCSD에서 CSRNet은 MAE 1.16 및 MSE 1.47를 보고하며 MCNN과 경쟁력을 보인다.
TRANCOS 차량수 추정에서 CSRNet은 GAME(0)=3.56, GAME(1)=5.49, GAME(2)=8.57, GAME(3)=15.04로 강건한 일반화 성능을 보인다.
ShanghaiTech Part_A에서 PSNR 23.79 및 SSIM 0.76으로 밀도 맵 품질이 더 높아 MCNN과 CP-CNN을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.