Skip to main content
QUICK REVIEW

[논문 리뷰] CrowdNet: A Deep Convolutional Network for Dense Crowd Counting

Lokesh Boominathan, Srinivas S S Kruthiventi|arXiv (Cornell University)|2016. 08. 22.
Video Surveillance and Tracking Methods참고 문헌 17인용 수 122
한 줄 요약

CrowdNet은 이미지를 통해 깊고 얕은 완전 연결 신경망을 결합하여 이미지에서 밀집한 군중 밀도 맵을 밀도 있게 예측하고, 스케일 변화를 다루기 위한 다중 스케일 데이터 증강을 사용하며, UCF_CC_50에서 최첨단 MAE를 달성합니다.

ABSTRACT

Our work proposes a novel deep learning framework for estimating crowd density from static images of highly dense crowds. We use a combination of deep and shallow, fully convolutional networks to predict the density map for a given crowd image. Such a combination is used for effectively capturing both the high-level semantic information (face/body detectors) and the low-level features (blob detectors), that are necessary for crowd counting under large scale variations. As most crowd datasets have limited training samples (<100 images) and deep learning based approaches require large amounts of training data, we perform multi-scale data augmentation. Augmenting the training samples in such a manner helps in guiding the CNN to learn scale invariant representations. Our method is tested on the challenging UCF_CC_50 dataset, and shown to outperform the state of the art methods.

연구 동기 및 목표

  • 정지 이미지에서 매우 밀집한 장면의 군중 밀도 추정을 정확하게 하고자 한다.
  • 고수준 의미론적 단서와 저수준 blob 패턴 모두를 활용하는 네트워크를 개발한다.
  • 제한된 학습 데이터 문제를 다중 스케일 데이터 증강으로 해결한다.
  • 분석 및 안전 응용을 위한 밀집도 맵과 총 군중 수를 생성한다.

제안 방법

  • 깊은 CNN(VGG-16 유사)을 완전 연결층은 제거하고 1/8 해상도에서 픽셀 단위 밀도 예측을 수행한다.
  • 얕은 3층 CNN을 사용해 작은 머리 blob을 감지하고 깊은 피처를 보완한다.
  • 깊은 예측과 얕은 예측을 1x1 합성곱으로 연결하고 입력 크기에 맞게 업샘플링하여 최종 밀도 맵을 얻는다.
  • 총 개수를 보존하기 위해 가우시안 블러 처리된 머리 주석으로 생성된 그라운드 트루스로 학습한다.
  • 다중 스케일 이미지 패치(스케일 0.5~1.2)로 학습을 증강하고, 스케일 변 variation과 군중 밀도를 다루기 위해 고밀도 패치를 오버샘플링한다.

실험 결과

연구 질문

  • RQ1극도로 밀집된 장면에서 깊은 네트워크와 얕은 네트워크의 결합이 군중 밀도 맵을 정확히 예측할 수 있는가?
  • RQ2다중 스케일 데이터 증강이 스케일 변동성과 폐색에 대한 강건성을 향상시키는가?
  • RQ3생성된 가우시안-그라운드 트루스가 픽셀 단위 밀도 추정 모델 학습에 효과적인가?
  • RQ4깊은 표현과 얕은 표현의 결합이 계산 정확도에 어떤 영향을 미치는가?

주요 결과

방법평균 절대 오차
Learning to Count [12]493.4
Density-aware Detection [16]655.7
FHSc [8]468.0
Cross-Scene Counting [19]467.0
Proposed452.5
  • UCF_CC_50에서 이전 방법들에 비해 최첨단 MAE(452.5)를 달성했다.
  • 깊은 네트워크와 얕은 네트워크를 결합하면 단독 네트워크(Deep: 681, Shallow: 1107)보다 MAE가 더 나은 645를 얻는다.
  • 밀집 영역을 대상으로 한 데이터 증강은 학습 패치를 거의 두 배로 늘리고(26,385→50,891) MAE를 감소시켰다(725→645).
  • 모델은 대부분의 이미지에서 실제 수에 근접한 수를 추정할 수 있으나, 극도로 밀집한 경우(>2500명)에는 과소추정한다.
  • 밀집도 맵과 총 수는 예측된 밀도를 합산하여 얻고, 네트워크는 L2 손실로 학습된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.