QUICK REVIEW

[논문 리뷰] CrowdNet: A Deep Convolutional Network for Dense Crowd Counting

Lokesh Boominathan, Srinivas S S Kruthiventi|arXiv (Cornell University)|2016. 08. 22.

Video Surveillance and Tracking Methods참고 문헌 17인용 수 122

한 줄 요약

CrowdNet은 이미지를 통해 깊고 얕은 완전 연결 신경망을 결합하여 이미지에서 밀집한 군중 밀도 맵을 밀도 있게 예측하고, 스케일 변화를 다루기 위한 다중 스케일 데이터 증강을 사용하며, UCF_CC_50에서 최첨단 MAE를 달성합니다.

ABSTRACT

Our work proposes a novel deep learning framework for estimating crowd density from static images of highly dense crowds. We use a combination of deep and shallow, fully convolutional networks to predict the density map for a given crowd image. Such a combination is used for effectively capturing both the high-level semantic information (face/body detectors) and the low-level features (blob detectors), that are necessary for crowd counting under large scale variations. As most crowd datasets have limited training samples (<100 images) and deep learning based approaches require large amounts of training data, we perform multi-scale data augmentation. Augmenting the training samples in such a manner helps in guiding the CNN to learn scale invariant representations. Our method is tested on the challenging UCF_CC_50 dataset, and shown to outperform the state of the art methods.

연구 동기 및 목표

정지 이미지에서 매우 밀집한 장면의 군중 밀도 추정을 정확하게 하고자 한다.
고수준 의미론적 단서와 저수준 blob 패턴 모두를 활용하는 네트워크를 개발한다.
제한된 학습 데이터 문제를 다중 스케일 데이터 증강으로 해결한다.
분석 및 안전 응용을 위한 밀집도 맵과 총 군중 수를 생성한다.

제안 방법

깊은 CNN(VGG-16 유사)을 완전 연결층은 제거하고 1/8 해상도에서 픽셀 단위 밀도 예측을 수행한다.
얕은 3층 CNN을 사용해 작은 머리 blob을 감지하고 깊은 피처를 보완한다.
깊은 예측과 얕은 예측을 1x1 합성곱으로 연결하고 입력 크기에 맞게 업샘플링하여 최종 밀도 맵을 얻는다.
총 개수를 보존하기 위해 가우시안 블러 처리된 머리 주석으로 생성된 그라운드 트루스로 학습한다.
다중 스케일 이미지 패치(스케일 0.5~1.2)로 학습을 증강하고, 스케일 변 variation과 군중 밀도를 다루기 위해 고밀도 패치를 오버샘플링한다.

실험 결과

연구 질문

RQ1극도로 밀집된 장면에서 깊은 네트워크와 얕은 네트워크의 결합이 군중 밀도 맵을 정확히 예측할 수 있는가?
RQ2다중 스케일 데이터 증강이 스케일 변동성과 폐색에 대한 강건성을 향상시키는가?
RQ3생성된 가우시안-그라운드 트루스가 픽셀 단위 밀도 추정 모델 학습에 효과적인가?
RQ4깊은 표현과 얕은 표현의 결합이 계산 정확도에 어떤 영향을 미치는가?

주요 결과

방법	평균 절대 오차
Learning to Count [12]	493.4
Density-aware Detection [16]	655.7
FHSc [8]	468.0
Cross-Scene Counting [19]	467.0
Proposed	452.5

UCF_CC_50에서 이전 방법들에 비해 최첨단 MAE(452.5)를 달성했다.
깊은 네트워크와 얕은 네트워크를 결합하면 단독 네트워크(Deep: 681, Shallow: 1107)보다 MAE가 더 나은 645를 얻는다.
밀집 영역을 대상으로 한 데이터 증강은 학습 패치를 거의 두 배로 늘리고(26,385→50,891) MAE를 감소시켰다(725→645).
모델은 대부분의 이미지에서 실제 수에 근접한 수를 추정할 수 있으나, 극도로 밀집한 경우(>2500명)에는 과소추정한다.
밀집도 맵과 총 수는 예측된 밀도를 합산하여 얻고, 네트워크는 L2 손실로 학습된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.