QUICK REVIEW

[논문 리뷰] Crowd Counting using Deep Recurrent Spatial-Aware Network

Lingbo Liu, Hongjun Wang|arXiv (Cornell University)|2018. 07. 02.

Video Surveillance and Tracking Methods참고 문헌 23인용 수 35

한 줄 요약

이 논문은 척도 및 회전 변형을 적응적으로 보정하는 순환 공간 변환 모듈을 통해 밀도 맵을 개선함으로써 인파 수세기 성능을 향상시키는 딥 순환 공간 인식 네트워크(Deep Recurrent Spatial-Aware Network, DRSAN)를 제안한다. 제안된 방법은 기존 방법 대비 WorldExpo’10에서 MAE를 12% 감소시키고, UCF_CC_50에서 22.8% 감소시켜 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Crowd counting from unconstrained scene images is a crucial task in many real-world applications like urban surveillance and management, but it is greatly challenged by the camera's perspective that causes huge appearance variations in people's scales and rotations. Conventional methods address such challenges by resorting to fixed multi-scale architectures that are often unable to cover the largely varied scales while ignoring the rotation variations. In this paper, we propose a unified neural network framework, named Deep Recurrent Spatial-Aware Network, which adaptively addresses the two issues in a learnable spatial transform module with a region-wise refinement process. Specifically, our framework incorporates a Recurrent Spatial-Aware Refinement (RSAR) module iteratively conducting two components: i) a Spatial Transformer Network that dynamically locates an attentional region from the crowd density map and transforms it to the suitable scale and rotation for optimal crowd estimation; ii) a Local Refinement Network that refines the density map of the attended region with residual learning. Extensive experiments on four challenging benchmarks show the effectiveness of our approach. Specifically, comparing with the existing best-performing methods, we achieve an improvement of 12% on the largest dataset WorldExpo'10 and 22.8% on the most challenging dataset UCF_CC_50.

연구 동기 및 목표

제약 조건이 없는 환경에서 카메라 시점으로 인한 대규모 및 회전 변형 문제를 해결한다.
고정된 다중 척도 아키텍처의 한계를 극복하여 다양한 척도 및 회전 변화를 적응적으로 처리할 수 있도록 한다.
밀도 맵의 지역적 영역을 동적으로 선택하고 개선하기 위한 학습 가능한 공간 변환 모듈을 도입한다.
순환 메커니즘을 통해 전반적인 맥락 정보와 반복적인 국소 정밀 조정을 통합하여 인파 수세기 정확도를 향상시킨다.

제안 방법

초기 인파 밀도 맵을 공간 변환과 잔차 학습을 통해 반복적으로 개선하는 순환 공간 인식 정밀화(Retrospective Spatial-Aware Refinement, RSAR) 모듈을 사용한다.
각 LSTM 단계에 공간 변환 네트워크(STN)를 통합하여 학습된 척도, 회전 및 이동 파rameter에 기반해 주의 영역을 동적으로 자르고 왜곡한다.
잔차 학습을 사용하여 주의 영역의 밀도 맵을 향상시키기 위한 국소 정밀화 네트워크를 적용한다.
최대 30회의 정밀화 단계를 포함하는 순환 아키텍처를 사용하여 밀도 맵을 점진적으로 개선하며, 성능은 30회 반복 시에 최고에 도달한다.
전체 이미지의 전반적 맥락을 활용해 국소 정밀화를 안내함으로써 전반적인 밀도 분포 인식 능력을 향상시킨다.
전역 및 국소 밀도 추정 정확도를 최적화하기 위해 다중 척도 손실을 사용하여 모델을 엔드 투 엔드로 훈련시킨다.

실험 결과

연구 질문

RQ1학습 가능한 공간 변환 모듈이 인파 밀도 추정에서 척도 및 회전 변형을 효과적으로 처리할 수 있는가?
RQ2단일 패assing 또는 고정 아키텍처 방법 대비 국소 영역의 순환 정밀화가 인파 수세기 정확도를 향상시키는가?
RQ3전반적 맥락의 포함 여부가 국소 밀도 맵 정밀화 성능에 어떤 영향을 미치는가?
RQ4정확도와 계산 비용을 균형 잡기 위해 최적의 정밀화 반복 횟수는 얼마인가?

주요 결과

제안된 방법은 기존 최고 성능 방법 대비 WorldExpo’10 데이터셋에서 MAE를 12% 향상시켰다.
더 도전적인 UCF_CC_50 데이터셋에서는 최신 기술 수준 접근법 대비 MAE를 22.8% 감소시켰다.
절단 실험 결과, 공간 변환 모듈에 척도, 회전 및 이동을 모두 포함할 경우 성능이 가장 우수하며, 상하이테크 Part A에서 MAE는 기준값 83.1에서 69.3으로 감소하였다.
전반적 맥락을 제거하면 성능이 저하되며, Part A에서 MAE는 69.3에서 74.44로 증가하여 정확한 추정에 있어 전반적 맥락의 중요성을 입증하였다.
순환 정밀화 메커니즘은 점진적으로 정확도를 향상시키며, Part A에서는 30회 반복 시 MAE 69.3, Part B에서는 11.6에 도달하여 40회 반복 시 약간의 성능 저하가 발생하기 전까지 최고 성능을 기록하였다.
시각적 비교 결과, 다단계 정밀화가 초기 예측 대비 더 정확하고 세밀한 밀도 맵을 생성하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.