QUICK REVIEW

[논문 리뷰] Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting

Yuehai Chen, Jing Yang|arXiv (Cornell University)|2021. 06. 23.

Video Surveillance and Tracking Methods참고 문헌 55인용 수 23

한 줄 요약

이 논문은 인구 수 세기에서 인간의 상향식 시각적 인식을 모델링하기 위해 영역 인식 피드백 네트워크인 RANet을 제안한다. 우선순위 맵을 생성하여 인구 밀도가 높은 영역을 강조하고, 특징과 우선순위 간의 전역 유사도를 계산하는 영역 인식 블록을 사용함으로써, 맥락 모델링과 수신 영역 크기를 향상시켜 배경 잡음과 척도 변동성과 같은 과제에도 불구하고 여러 인구 수 세기 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Background noise and scale variation are common problems that have been long recognized in crowd counting. Humans glance at a crowd image and instantly know the approximate number of human and where they are through attention the crowd regions and the congestion degree of crowd regions with a global receptive field. Hence, in this paper, we propose a novel feedback network with Region-Aware block called RANet by modeling humans Top-Down visual perception mechanism. Firstly, we introduce a feedback architecture to generate priority maps that provide prior about candidate crowd regions in input images. The prior enables the RANet pay more attention to crowd regions. Then we design Region-Aware block that could adaptively encode the contextual information into input images through global receptive field. More specifically, we scan the whole input images and its priority maps in the form of column vector to obtain a relevance matrix estimating their similarity. The relevance matrix obtained would be utilized to build global relationships between pixels. Our method outperforms state-of-the-art crowd counting methods on several public datasets.

연구 동기 및 목표

기존 딥 러닝 방법의 성능을 저해하는 배경 잡음과 척도 변동성을 해결하기 위해.
인구 밀도가 높은 영역에 대한 사전 지식에 의해 유도되는 주의를 갖는 인간 유사 상향식 시각적 인식을 모델링하기 위해.
전역 맥락 정보를 사용하여 효과적 수신 영역을 확장함으로써 특징 표현을 향상시키기 위해.
표준 인구 수 세기 벤치마크에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

배경 간섭을 줄이기 위해 인구 밀도가 높은 영역을 나타내는 우선순위 맵을 생성하는 피드백 아키텍처를 제안한다.
평탄화된 입력 이미지와 우선순위 맵을 열 벡터로 간주하여 유사도를 측정함으로써 관련성 행렬을 계산하는 영역 인식 블록을 도입한다.
관련성 행렬을 사용하여 특징을 재가중함으로써 전역 맥락을 인코딩하고 먼 픽셀 간의 관계를 향상시킨다.
밀도 있는 인구 밀도 영역에서의 척도 변동성을 더 잘 다루기 위해 전역 수신 영역 메커니즘을 활용한다.
주의 기반 특징 정제와 전역 맥락 집약을 조합하여 밀도 추정 성능을 향상시킨다.
밀도 맵 예측을 위한 표준 회귀 손실을 사용하여 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1인간의 상향식 시각적 인식을 모델링하면 복잡한 환경에서 인구 수 세기 정확도를 향상시킬 수 있는가?
RQ2인구 수 세기 네트워크에서 전역 맥락과 장거리 의존성을 효과적으로 모델링할 수 있는가?
RQ3우선순위 맵을 생성하는 피드백 메커니즘이 인구 영역에 대한 주의를 향상시키고 배경 잡음을 억제할 수 있는가?
RQ4효과적 수신 영역을 확장하면 척도가 변하는 인구 밀도 영역에서 성능 향상에 어느 정도 기여하는가?
RQ5유사도 기반 메커니즘을 통해 전역 맥락을 통합하면 국소적 또는 픽셀 수준의 주의보다 인구 수 세기에서 더 우수한 성능을 내는가?

주요 결과

RANet는 UCF-QNRF, ShanghaiTech, UCSD를 포함한 여러 공개 인구 수 세기 데이터셋에서 최신 기술 수준의 성능을 달성한다.
우선순위 맵을 사용하는 제안된 피드백 네트워크가 배경 혼잡도에 대한 주의를 크게 감소시켜 강건성을 향상시킨다.
영역 인식 블록이 전역 관계를 모델링함으로써 효과적 수신 영역을 효과적으로 확장하여 척도 일반화 능력을 향상시킨다.
정량적 결과는 모든 벤치마크에서 MAE와 MSE 모두 일관된 향상을 보이며, 이는 이전 최신 기술 수준의 방법보다 낮은 오차율을 기록한다.
제거 실험 결과는 우선순위 맵 생성 및 전역 맥락 모델링 구성 요소가 성능 향상에 필수적임을 확인한다.
매우 혼잡한 장면에서 강력한 일반화 성능을 보이며, 이는 척도 변동성과 가림 현상이 가장 심한 상황에서 특히 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.