QUICK REVIEW

[논문 리뷰] Shallow Feature Based Dense Attention Network for Crowd Counting

Yunqi Miao, Zijia Lin|arXiv (Cornell University)|2020. 06. 17.

Video Surveillance and Tracking Methods인용 수 24

한 줄 요약

이 논문은 배경 잡음 억제를 위해 초기층 특징을 활용하고 다중 스케일 인체 특징을 유지하기 위해 밀집 스킵 연결을 사용하는 얕은 특징 기반의 밀도 주의망(SDANet)을 제안한다. UCF_CC_50에서 MAE를 11.9% 감소시켜 척도 변화 및 혼잡한 배경에 대한 뛰어난 내구성을 입증한다.

ABSTRACT

While the performance of crowd counting via deep learning has been improved dramatically in the recent years, it remains an ingrained problem due to cluttered backgrounds and varying scales of people within an image. In this paper, we propose a Shallow feature based Dense Attention Network (SDANet) for crowd counting from still images, which diminishes the impact of backgrounds via involving a shallow feature based attention model, and meanwhile, captures multi-scale information via densely connecting hierarchical image features. Specifically, inspired by the observation that backgrounds and human crowds generally have noticeably different responses in shallow features, we decide to build our attention model upon shallow-feature maps, which results in accurate background-pixel detection. Moreover, considering that the most representative features of people across different scales can appear in different layers of a feature extraction network, to better keep them all, we propose to densely connect hierarchical image features of different layers and subsequently encode them for estimating crowd density. Experimental results on three benchmark datasets clearly demonstrate the superiority of SDANet when dealing with different scenarios. Particularly, on the challenging UCF CC 50 dataset, our method outperforms other existing methods by a large margin, as is evident from a remarkable 11.9% Mean Absolute Error (MAE) drop of our SDANet.

연구 동기 및 목표

정적 이미지에서의 지속적인 배경 혼잡성과 척도 변화 문제를 해결하기 위해.
밀도 추정에서 우산, 계단, 건물 등의 배경 요소로 인한 오진을 줄이기 위해.
딥 네트워크의 다양한 레이어를 통해 다중 스케일 인체 특징을 유지하기 위해.
복잡하고 파rameter가 많은 독립형 모델을 피하기 위한 경량 주의 메커니즘을 개발하기 위해.
다양한 네트워크 레이어에서의 계층적 특징을 밀집 연결하여 특징 표현을 향상시키기 위해.

제안 방법

이 방법은 얕은 컨볼루션 특징 맵을 사용하여 주의 가중치를 생성하는 주의 맵 생성기(AMG)를 활용하며, 활성화 패턴의 차이에 기반해 인파 영역와 배경 영역을 구분한다.
AMG는 특징 추출 백본에 통합되어 추가 파rameter 없이 또는 별도의 분류기 없이 엔드 투 엔드 학습이 가능하다.
모든 이전 레이어의 특징을 융합하는 밀집 연결 구조를 사용하여 다중 스케일 인체 특징이 유지되고 효과적으로 인코딩됨을 보장한다.
다중 스케일 손실 함수 $ L_{map} $ 를 사용한 굵은-세밀한 보정 전략을 통해 밀도 맵 예측 정확도가 향상된다.
주의 메커니즘은 이진 교차 엔트로피 손실 $ L_{att} $ 를 사용해 학습되며, 배경 억제의 정확도를 최적화한다.
다양한 레이어의 특징 맵이 연결되어 복합 처리 레이어를 거쳐 최종 밀도 맵이 생성된다.

실험 결과

연구 질문

RQ1얕은 특징 맵은 인파 계수에서 인파 영역과 혼잡한 배경을 효과적으로 구분할 수 있는가?
RQ2얕은 특징에 기반한 경량 주의 메커니즘은 복잡한 독립형 주의 모델보다 배경 잡음을 줄이는 데 더 우수한 성능을 보일 수 있는가?
RQ3계층적 특징 간의 밀집 스킵 연결은 인파 계수의 다중 스케일 표현 학습을 향상시킬 수 있는가?
RQ4얕은 주의와 밀집 특징 융합의 조합은 다양한 인파 밀도를 가진 도전적인 데이터셋에서 성능에 어떤 영향을 미치는가?
RQ5粗-세밀한 보정 전략은 밀도 맵 추정 정확도를 얼마나 향상시키는가?

주요 결과

UCF_CC_50 데이터셋에서 SDANet는 평균 절대 오차(MAE)를 11.9% 감소시켜 이전 최신 기술을 크게 능가한다.
WorldExpo’10 데이터셋에서 SDANet는 Scene 1, Scene 4, Scene 5 및 평균 지표에서 최고 성능을 기록하여 다양한 실제 환경에 대한 강력한 적응성을 입증한다.
ShanghaiTech Part-B 데이터셋에서 SDANet는 최신 기술인 TEDnet 대비 MAE를 4.87% 감소시키고, MSE를 20.31% 감소시켰다.
제거 실험 결과 주의 모듈을 제거할 경우 MAE가 37% 증가하여 주의 모듈이 배경 억제에 핵심적인 역할을 한다는 것을 입증한다.
밀집 연결 구조를 제거할 경우 계산 정확도가 20.1% 감소하여 다중 스케일 특징 유지에 있어 그 중요성이 확인된다.
보정 레이어를 제거할 경우 MAE가 16% 증가하여 굵은-세밀한 학습 전략의 효과성이 검증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.