QUICK REVIEW

[논문 리뷰] Learning Independent Instance Maps for Crowd Localization

Junyu Gao, Tao Han|arXiv (Cornell University)|2020. 12. 08.

Video Surveillance and Tracking Methods참고 문헌 59인용 수 33

한 줄 요약

본 논문은 Independent Instance Maps segmentation (IIM)과 differentiable binarization 모듈을 도입하여 군중 속 개별 머리를 로컬라이즈하며, NWPU-Crowd Localization에서 최첨단 성과를 달성하고 여러 데이터세트에서 강력한 성능을 보인다.

ABSTRACT

Accurately locating each head's position in the crowd scenes is a crucial task in the field of crowd analysis. However, traditional density-based methods only predict coarse prediction, and segmentation/detection-based methods cannot handle extremely dense scenes and large-range scale-variations crowds. To this end, we propose an end-to-end and straightforward framework for crowd localization, named Independent Instance Map segmentation (IIM). Different from density maps and boxes regression, each instance in IIM is non-overlapped. By segmenting crowds into independent connected components, the positions and the crowd counts (the centers and the number of components, respectively) are obtained. Furthermore, to improve the segmentation quality for different density regions, we present a differentiable Binarization Module (BM) to output structured instance maps. BM brings two advantages into localization models: 1) adaptively learn a threshold map for different images to detect each instance more accurately; 2) directly train the model using loss on binary predictions and labels. Extensive experiments verify the proposed method is effective and outperforms the-state-of-the-art methods on the five popular crowd datasets. Significantly, IIM improves F1-measure by 10.4% on the NWPU-Crowd Localization task. The source code and pre-trained models will be released at https://github.com/taohan10200/IIM.

연구 동기 및 목표

극도로 밀집된 군중에서 밀도나 박스 기반 방법을 넘어서는 정확한 머리 로컬라이제이션의 동기 부여.
Independent Instance Maps (IIM)에서 각 인스턴스가 비중첩이며 연결 성분으로 추출 가능하도록 제시.
구조화된 인스턴스 맵을 생성하는 differentiable Binarization Module (BM)을 도입.
스케일 변화에 강건하도록 픽셀 단위 임계값을 가이드하는 픽셀 수준 임계값 학습을 도입.
표준 군중 데이터셋에서 우수한 로컬라이제이션과 경쟁력 있는 개수를 증명.

제안 방법

군중 영역을 신뢰도 맵으로 표현하고 이를 독립된 연결 성분으로 세분화하여 머리 중심점과 개수를 얻는다.
추가 감독 없이 신뢰도 맵을 이진 인스턴스 맵으로 변환하는 differentiable binarization 계층을 도입한다.
임계값 인코더를 삽입하여 이미지 수준 또는 픽셀 수준 임계값이 로컬라이제이션에 가이드하도록 한다.
스케일 변화와 공간적 분포에 적응하는 픽셀 단위 임계값을 생성하는 Pixel-level Binarization Module (PBM)을 사용한다.
신뢰도 맵에 대한 회귀 손실과 임계값 맵에 대한 L1 손실의 결합 손실로 학습하되, 구성 요소 간 역전파를 균형 있게 조절하기 위한 그래디언트 흐름을 제어한다.
4-connected 성분을 탐지하고 독립 인스턴스 내에서 중심점을 추출하여 로컬라이제이션을 출력한다.

실험 결과

연구 질문

RQ1독립적이고 비중첩된 인스턴스 맵이 밀도가 매우 높은 군중에서 로컬라이제이션 정확도를 밀도 기반 또는 탐지 기반 접근법보다 향상시킬 수 있는가?
RQ2 differentiable binarization 계층이 엔드 투 엔드 최적화와 작은 머리나 가림 머리에 대한 경계 구분 향상에 기여하는가?
RQ3이미지 수준 및 픽셀 수준 임계값 학습 전략이 큰 범위의 스케일 변동 하에서 로컬라이제이션과 개수를 개선하는가?
RQ4임계값 인코더가 신뢰도 예측기와 통합되어 다양한 군중 밀도에 적응하여 로컬라이제이션 로버스트니스를 향상시키는가?

주요 결과

IIM은 NWPU-Crowd Localization에서 최첨단 로컬라이제이션 성능을 달성하며 Localization 벤치마크에서 1위를 차지했고 테스트 세트에서 F1-m = 76.2% 및 MAE = 87.1로 기록된다(표 II 참조).
해당 방법은 NWPU-Crowd Localization에서 이전 접근법들에 비해 F1-measure를 약 9.0% 향상시킨다.
픽셀 수준 임계값 학습(PBM)은 이미지 수준 임계값 학습(IBM)보다 더 정밀한 로컬라이제이션을 제공한다.
다양한 데이터셋에서 강력한 성능을 보이며 음성 샘플 및 밀집한 군중에 대한 로버스트니스가 입증된다.
ShanghaiTech Part A/B, UCF-QNRF, 및 FDST의 로컬라이제이션 작업에서 여러 탐지 기반 및 밀도 기반 방법들을 능가하며 더 높은 정밀도와 경쟁력 있는 재현율을 보여준다(표 IV 및 관련 결과에 요약).
Abalation 연구는 IBM/PBM이 고정 임계값 대비 큰 이점을 제공하며 L1 손실 및 로컬라이제이션 목표의 그래디언트 흐름의 도입이 큰 이점을 만든다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.