Skip to main content
QUICK REVIEW

[논문 리뷰] Learn to Scale: Generating Multipolar Normalized Density Maps for Crowd Counting

Chenfeng Xu, Kai Qiu|arXiv (Cornell University)|2019. 07. 29.
Video Surveillance and Tracking Methods참고 문헌 32인용 수 27
한 줄 요약

이 논문은 단일 CNN이 인파의 극단적인 밀도 변동을 견딜 수 있도록 패치 수준의 밀도 맵을 군집화된 밀도 수준으로 정규화하는 데 다극점 중심 손실을 사용하는 학습을 통한 스케일링 모듈(L2SM)을 제안한다. 이 방법은 여러 기준에서 최고 성능을 기록하며, 상하이기술대 Part A, Part B, UCF_CC_50, UCF-QNRF에서 각각 MAE 기준으로 4.2%, 14.3%, 27.1%, 20.1% 향상시켰다.

ABSTRACT

Dense crowd counting aims to predict thousands of human instances from an image, by calculating integrals of a density map over image pixels. Existing approaches mainly suffer from the extreme density variances. Such density pattern shift poses challenges even for multi-scale model ensembling. In this paper, we propose a simple yet effective approach to tackle this problem. First, a patch-level density map is extracted by a density estimation model and further grouped into several density levels which are determined over full datasets. Second, each patch density map is automatically normalized by an online center learning strategy with a multipolar center loss. Such a design can significantly condense the density distribution into several clusters, and enable that the density variance can be learned by a single model. Extensive experiments demonstrate the superiority of the proposed method. Our work outperforms the state-of-the-art by 4.2%, 14.3%, 27.1% and 20.1% in MAE, on ShanghaiTech Part A, ShanghaiTech Part B, UCF_CC_50 and UCF-QNRF datasets, respectively.

연구 동기 및 목표

  • 극단적인 밀도 변동으로 인해 단일 모델의 일반화 능력이 저하되는 문제를 해결하기 위해.
  • 매우 다른 인파 밀도를 가진 이미지 간의 밀도 패턴 이동을 줄이기 위해.
  • 딥 러닝 기반의 밀도 추정 모델의 강건성과 이식 가능성 향상을 위해.
  • 엔드 투 엔드 학습 가능한 정규화를 통해 척도 불변 밀도 표현을 효과적으로 학습하기 위해.
  • 다양한 인파 계수 데이터셋에서 뛰어난 성능과 일반화 능력을 입증하기 위해.

제안 방법

  • 스케일 유지 네트워크(SPNet)가 입력 이미지로부터 초깃밀도 맵을 생성한다.
  • 밀도 맵이 K×K 패치로 나뉘며, 전역 밀도 통계 기반으로 G개의 밀도 수준 그룹으로 묶인다.
  • 각 패치는 온라인 중심 업데이트를 통해 가용한 스케일 인자로 조정되어 군집 중심과 일치하도록 한다.
  • 모든 패치가 그룹 내 공통 중심으로 수렴하도록 보장하기 위해 다극점 중심 손실(MPCL)이 도입된다.
  • 스케일링된 패치 수준 출력을 연결하여 최종 밀도 맵을 재구성한다.
  • 전체 L2SM 모듈는 엔드 투 엔드 미분 가능하며, 어떤 CNN 기반 밀도 추정 프레임워크에도 통합 가능하다.

실험 결과

연구 질문

  • RQ1학습된 스케일링을 통한 밀도 분포 응집이 극도로 변동성이 큰 인파 밀도 이미지에서 성능 향상에 기여하는가?
  • RQ2단일 중심 또는 중심 없음 보다 다중 중심(다극점 중심)을 사용할 경우 밀도 변동을 다루는 데에 어떤 차이가 있는가?
  • RQ3제안된 방법이 밀도 분포가 상당히 다른 데이터셋 간에 얼마나 잘 일반화되는가?
  • RQ4고정 또는 정적 정규화보다 온라인 중심 학습 전략이 모델의 강건성 향상에 기여하는가?
  • RQ5정답 변환 및 패치 분할 전략이 모델 성능과 추론 효율성에 어떤 영향을 미치는가?

주요 결과

  • 제안된 방법은 상하이기술대 Part A 데이터셋에서 최신 기술 대비 MAE 기준 4.2%의 상대적 향상을 달성했다.
  • UCF-QNRF에서 이전 방법 대비 MAE를 27.1% 감소시켜 극단적인 밀도 시나리오에서 뛰어난 성능을 입증했다.
  • 교차 데이터셋 전이 설정에서 D-ConvNet-v1과 MCNN을 크게 앞서며 뛰어난 일반화 능력을 보였다.
  • 5개의 중심을 사용하고 모든 K×K 영역을 재예측할 경우, 이미지당 추론 시간이 오직 0.068초만 증가하여 부담이 거의 없다.
  • 적절한 가중치(λ₂)를 가진 다극점 중심 손실은 정확도를 크게 향상시키며, 다양한 손실 가중치 범위에서도 성능이 안정되어 있다.
  • 정답 변환을 통해 헤드 간 거리를 증가시키면, 고밀도 영역에서의 밀도 패턴 이동을 줄여 예측 정확도가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.