Skip to main content
QUICK REVIEW

[논문 리뷰] Switching Convolutional Neural Network for Crowd Counting

Deepak Babu Sam, Shiv Surya|ePrints-IISc. (Indian Institute of Science Bangalore)|2017. 08. 01.
Video Surveillance and Tracking Methods참고 문헌 20인용 수 99
한 줄 요약

Switch-CNN은 서로 다른 수용 영역을 가진 특수 CNN 회귀기로 패치를 스위치 분류기에 의해 전환시키고, 주요 데이터셋 전반에서 최첨단 군중 추정 성능을 달성합니다.

ABSTRACT

We propose a novel crowd counting model that maps a given crowd scene to its density. Crowd analysis is compounded by myriad of factors like inter-occlusion between people due to extreme crowding, high similarity of appearance between people and background elements, and large variability of camera view-points. Current state-of-the art approaches tackle these factors by using multi-scale CNN architectures, recurrent networks and late fusion of features from multi-column CNN with different receptive fields. We propose switching convolutional neural network that leverages variation of crowd density within an image to improve the accuracy and localization of the predicted crowd count. Patches from a grid within a crowd scene are relayed to independent CNN regressors based on crowd count prediction quality of the CNN established during training. The independent CNN regressors are designed to have different receptive fields and a switch classifier is trained to relay the crowd scene patch to the best CNN regressor. We perform extensive experiments on all major crowd counting datasets and evidence better performance compared to current state-of-the-art methods. We provide interpretable representations of the multichotomy of space of crowd scene patches inferred from the switch. It is observed that the switch relays an image patch to a particular CNN column based on density of crowd.

연구 동기 및 목표

  • 스케일, 원근, 카메라 가림 변동성 하에서의 군중 수 추정 도전 과제 해결.
  • 이미지 내 지역 밀도 변화를 이용해 패치를 특정 회귀기에 라우팅.
  • 차등, 결합, 스위치 학습 단계를 포함한 엔드-투-엔드 Switch-CNN 프레임워크 개발.

제안 방법

  • 서로 다른 수용 영역을 가진 세 개의 CNN 회귀기를 사용해 다양한 군중 규모를 처리.
  • 이미지를 9패치로 분할하고 각 패치를 밀도에 가장 적합한 회귀기에 라우트.
  • 패치를 회귀기에 할당하는 VGG-16 백본과 GAP 기반의 스위치 분류기를 학습.
  • 패치를 최대화된 패치별 카운트 정확도를 달성하도록 차등 학습을 먼저 수행한 다음, 스위치와 회귀기의 공동 적응을 위한 결합 학습을 수행.
  • 지오메트리 적응 커널 또는 데이터셋 특성에 따라 고정 확산으로Ground-truth 밀도 맵 생성.
  • 표준 군중 수 추정 벤치마크에서 MAE와 MSE로 평가.

실험 결과

연구 질문

  • RQ1다른 수용 영역을 가진 회귀기들 간의 패치 단위 스위칭이 군중 현장의 밀도 로컬라이제이션과 카운트 정확도 향상에 기여하는가?
  • RQ2공동 학습된 스위치 분류기와 다양한 회귀기가 단일 모델 접근법보다 데이터셋의 밀도 및 원근이 서로 다른 경우에 우수한가?
  • RQ3차등 학습이 밀도 기반 그룹으로의 이미지 패치 분할과 이후의 카운트 성능에 어떤 영향을 미치는가?

주요 결과

  • Switch-CNN은 ShanghaiTech Part A 및 Part B에서 최첨단 MAE 및 MSE를 달성하며 MCNN 및 다른 방법을 능가합니다.
  • ShanghaiTech Part A에서 Switch-CNN은 MAE 90.4 및 MSE 135.0을 달성하고 Part B에서 MAE 21.6 및 MSE 33.4를 달성합니다.
  • UCF_CC_50에서 Switch-CNN은 MAE 318.1 및 MSE 439.2를 달성하고 스위치 정확도는 54.3%입니다.
  • UCSD에서 Switch-CNN은 MAE 1.62 및 MSE 2.10, 스위치 정확도 60.9%를 보고합니다.
  • WorldExpo’10에서 Switch-CNN은 인식 맵이 있을 때 평균 MAE 9.4, 인식 맵이 없을 때 11.2로 다수의 베이스라인을 능가합니다.
  • 차등 학습은 밀도에 정렬된 패치의 다중 분할을 만들고, 결합 학습은 스위치와 회귀기의 강건성을 추가로 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.