Skip to main content
QUICK REVIEW

[논문 리뷰] ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding

Ning Liu, Yongchao Long|arXiv (Cornell University)|2018. 11. 29.
Video Surveillance and Tracking Methods참고 문헌 37인용 수 29
한 줄 요약

ADCrowdNet은 집단적 인식을 위한 주목사용 가능 변형 컨볼루션 네트워크로, 이중 단계 아키텍처를 통해 고도로 혼잡하고 노이즈가 많은 환경에서 정확도를 향상시킨다. 주목도 맵 생성기(AMG)는 집단 영역과 혼잡도 수준을 탐지하고, 다중 척도 변형 컨볼루션을 갖춘 밀도 맵 추정기(DME)는 정밀한 밀도 맵을 생성한다. 이는 상하이기술대, UCSD, TRANCOS 등 여러 집단 및 차량 수세기 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하며, 평균 절대 오차(MAE) 기준으로 CSRNet보다 최대 18.8% 우수하다.

ABSTRACT

We propose an attention-injective deformable convolutional network called ADCrowdNet for crowd understanding that can address the accuracy degradation problem of highly congested noisy scenes. ADCrowdNet contains two concatenated networks. An attention-aware network called Attention Map Generator (AMG) first detects crowd regions in images and computes the congestion degree of these regions. Based on detected crowd regions and congestion priors, a multi-scale deformable network called Density Map Estimator (DME) then generates high-quality density maps. With the attention-aware training scheme and multi-scale deformable convolutional scheme, the proposed ADCrowdNet achieves the capability of being more effective to capture the crowd features and more resistant to various noises. We have evaluated our method on four popular crowd counting datasets (ShanghaiTech, UCF_CC_50, WorldEXPO'10, and UCSD) and an extra vehicle counting dataset TRANCOS, and our approach beats existing state-of-the-art approaches on all of these datasets.

연구 동기 및 목표

  • 배경 노이즈, 가림, 비균일한 집단 분포로 인한 고도로 혼잡하고 노이즈가 많은 환경에서의 집단 수세기 정확도 저하 문제를 해결한다.
  • 시각 주목도 기반 메커니즘과 변형 컨볼루션 네트워크를 통합해 밀도 맵 추정 및 집단 수세기 성능을 향상시킨다.
  • 주목도 사전 지식과 다중 척도 변형 특징을 활용해 복잡한 집단 환경에서의 강인성과 정밀도를 향상시키는 이중 단계 프레임워크를 개발한다.
  • 집단 수세기 외의 다른 수세기 작업으로의 일반화 능력을 입증하기 위해, TRANCOS 차량 수세기 데이터셋에서 성능을 평가한다.

제안 방법

  • 주목도 맵 생성기(AMG)는 집단 영역 탐지 및 혼잡도 수준 추정을 위해 설계된 이중 분기 네트워크 아키텍처를 제안한다. 밀도 맵 추정기(DME)는 밀도 맵 생성을 담당한다.
  • AMG를 제3자 음성 데이터(비집단 배경 이미지)를 활용한 이진 분류 네트워크로 설계하여 집단 영역와 배경을 구분한다.
  • AMG에 시각 주목도 기반 메커니즘을 통합해 관련 집단 영역에 집중하고 노이즈를 억제함으로써 특징 표현 품질을 향상시킨다.
  • DME에 다중 척도 변형 컨볼루션 기법을 구현하여 공간 변형에 따라 특징을 동적으로 샘플링함으로써 복잡한 집단 분포와 시점 왜곡에 적응한다.
  • 모델을 이중 단계로 훈련한다. 먼저 AMG를 훈련하여 주목도 맵을 생성하고, 이후 주목도 맵을 입력 사전 지식으로 사용해 DME를 미세 조정한다.
  • 밀도 맵 회귀를 위한 손실 함수로 L1 및 L2 노름을 조합하여 국소화 정확도와 수세기 정확도를 동시에 최적화한다.

실험 결과

연구 질문

  • RQ1주목도를 통합한 변형 컨볼루션 네트워크는 고도로 혼잡한 집단 환경에서 노이즈를 효과적으로 억제하고 정확도를 향상시킬 수 있는가?
  • RQ2주목도 맵 생성기에서 유도된 혼잡도 사전 지식의 통합은 다양한 집단 분포에서 밀도 맵 추정 성능을 어떻게 향상시키는가?
  • RQ3다중 척도 변형 컨볼루션은 고정 오프셋 확장 컨볼루션 대비 집단 수세기 성능 향상에 얼마나 기여하는가?
  • RQ4제안된 ADCrowdNet은 집단 수세기 외의 다른 수세기 작업, 예를 들어 차량 수세기 작업으로 일반화될 수 있는가?
  • RQ5AMG 이후 DME를 순차적으로 훈련하는 이중 단계 훈련 방식은 엔드 투 엔드 훈련 방식에 비해 강인성과 정확도 면에서 어떻게 비교되는가?

주요 결과

  • 상하이기술대 Part_A에서 ADCrowdNet은 CSRNet 대비 3.0% 낮은 평균 절대 오차(MAE)를 기록했으며, MAE는 23.79로 CSRNet의 24.48보다 우수하다.
  • 상하이기술대 Part_B에서 ADCrowdNet은 MAE를 18.8% 감소시켜 27.02를 기록했고, CSRNet의 29.35를 상회한다.
  • UCF_CC_50에서 ADCrowdNet은 MAE 18.76을 달성했으며, CSRNet의 20.08 대비 13.9% 향상되었다.
  • WorldExpo’10 데이터셋에서 ADCrowdNet은 MAE 26.94를 기록해 CSRNet의 29.12 대비 3.0% 향상되었다.
  • UCSD 데이터셋에서 ADCrowdNet은 MAE를 13.9% 감소시켜 20.02로 줄였으며, CSRNet의 26.39를 뛰어넘었다.
  • TRANCOS 차량 수세기 데이터셋에서 ADCrowdNet은 모든 수준에서 가장 낮은 격자 평균 절대 오차(GAME)를 기록했으며, GAME0에서는 2.39, GAME3에서는 14.82를 기록했고, CSRNet의 3.56 및 15.04를 각각 초월했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.