Skip to main content
QUICK REVIEW

[논문 리뷰] Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds

Haroon Idrees, Muhmmad Tayyab|arXiv (Cornell University)|2018. 08. 02.
Video Surveillance and Tracking Methods참고 문헌 22인용 수 61
한 줄 요약

Composition Loss를 도입하여 밀집 군중에서 카운트, 밀도 맵 추정, 그리고 로컬라이제이션을 공동으로 학습시키고, 대형 UCF-QNRF 데이터셋을 공개하며 카운트, 밀도, 로컬라이제이션 작업에서 최첨단 성능을 보인다.

ABSTRACT

With multiple crowd gatherings of millions of people every year in events ranging from pilgrimages to protests, concerts to marathons, and festivals to funerals; visual crowd analysis is emerging as a new frontier in computer vision. In particular, counting in highly dense crowds is a challenging problem with far-reaching applicability in crowd safety and management, as well as gauging political significance of protests and demonstrations. In this paper, we propose a novel approach that simultaneously solves the problems of counting, density map estimation and localization of people in a given dense crowd image. Our formulation is based on an important observation that the three problems are inherently related to each other making the loss function for optimizing a deep CNN decomposable. Since localization requires high-quality images and annotations, we introduce UCF-QNRF dataset that overcomes the shortcomings of previous datasets, and contains 1.25 million humans manually marked with dot annotations. Finally, we present evaluation measures and comparison with recent deep CNN networks, including those developed specifically for crowd counting. Our approach significantly outperforms state-of-the-art on the new dataset, which is the most challenging dataset with the largest number of crowd annotations in the most diverse set of scenes.

연구 동기 및 목표

  • 매우 밀집한 군중에서 안전 및 보안 애플리케이션을 위한 정확한 카운트를 동기화하는 것을 목표로 한다.
  • 카운팅, 밀도 추정, 로컬라이제이션 손실을 분해하는 공동 학습 프레임워크를 제안한다.
  • 밀집 군중에 최적화된 대규모의 고품질 데이터셋(UCF-QNRF)을 생성하고 주석을 달아 제공한다.
  • 밀도 및 로컬라이제이션 감독이 다양한 장면에서 카운트 성능을 향상시킨다는 것을 보여준다.]
  • method:[

제안 방법

  • 카운팅, 밀도 맵, 로컬라이제이션을 적응적 가우시안 커널을 통해 연결하는 분해 가능한 Composition Loss를 정의한다.
  • DenseNet 기반에서 Density Network를 분기하여 여러 밀도 레벨(D1, D2)과 로컬라이제이션 맵(Dinfty)을 출력한다.
  • 개인별 적응 대역폭 sigma_i = 최소(가장 가까운 이웃까지의 거리, tau)로 밀도를 계산하고 f_k(sigma) = sigma^{1/k}인 밀도 맵 시퀀스 D_k를 생성한다.
  • 다수의 밀도 레벨에 걸쳐 L_c(카운트 회귀)와 L_k(예측 밀도/로컬라이제이션 맵과 실제 간의 MSE)를 학습시켜 카운트가 실제 카운트와 일치하도록 한다.
  • DenseNet-201을 백본으로 사용하고 Density Network 블록을 DenseBlock2에 부착하여 D1, D2, Dinfty를 중간 감독으로 예측한다.

실험 결과

연구 질문

  • RQ1카운팅, 밀도 추정, 로컬라이제이션을 성능 저하 없이 함께 학습할 수 있는가?
  • RQ2적응 커널을 가진 다중 밀도 레벨을 구성하는 것이 로컬라이제이션 정확도와 밀도 맵 품질을 향상시키는가?
  • RQ3Composition Loss가 단일 작업 또는 다중 작업 기준선 대비 카운팅 정확도에 미치는 영향은 무엇인가?
  • RQ4제안된 대규모 UCF-QNRF 데이터셋이 밀집 군중 분석의 일반화에 어떤 도움을 주는가?

주요 결과

  • 제안 방법은 UCF-QNRF 데이터셋에서 카운팅 MAE 132, NAE 0.258, MSE 191을 달성하여 여러 최첨단 방법을 능가한다.
  • 제안된 손실을 이용한 밀도 맵 추정은 DM-MAE 0.00044, DM-MSE 0.0017, DM-HI 0.9131를 달성하며 경쟁 방식보다 큰 차이로 우수하다.
  • 로컬라이제이션 결과는 평균 정밀도 75.8%, 평균 재현율 59.75%, L-AUC 0.714를 달성하여 여러 기준선보다 높다.
  • 다중 밀도 레벨(D1, D2, Dinfty)과 Composition Loss가 단일 분기 또는 비구성적 구성에서 카운팅, 밀도, 로컬라이제이션 지표를 일관되게 향상시킨다.
  • 밀도 및 로컬라이제이션 맵의 중간 감독이 학습 수렴을 빠르게 돕고 작업 간 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.