QUICK REVIEW

[논문 리뷰] Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework

Qingyu Song, Changan Wang|arXiv (Cornell University)|2021. 07. 27.

Video Surveillance and Tracking Methods참고 문헌 46인용 수 23

한 줄 요약

이 논문은 밀도 지도나 가짜 바운딩 박스에 의존하는 기존의 밀도 기반 접근 방식의 한계를 해결하기 위해, 단일 포인트로 구성된 프레임워크를 제안한다. Point-to-Point Network (P2PNet)는 중간 표현 없이 직접 머리 위치를 점으로 예측함으로써 오류가 발생하기 쉬운 단계를 피한다. 이는 새로운 밀도 보정 평균 정밀도(nAP) 지표와 히운가리안 알고리즘을 통한 일대일 매칭을 통해 최적의 타겟 할당을 실현하여 최신 기술 수준의 계산 정확도와 뛰어난 국소화 성능을 달성한다.

ABSTRACT

Localizing individuals in crowds is more in accordance with the practical demands of subsequent high-level crowd analysis tasks than simply counting. However, existing localization based methods relying on intermediate representations ( extit{i.e.}, density maps or pseudo boxes) serving as learning targets are counter-intuitive and error-prone. In this paper, we propose a purely point-based framework for joint crowd counting and individual localization. For this framework, instead of merely reporting the absolute counting error at image level, we propose a new metric, called density Normalized Average Precision (nAP), to provide more comprehensive and more precise performance evaluation. Moreover, we design an intuitive solution under this framework, which is called Point to Point Network (P2PNet). P2PNet discards superfluous steps and directly predicts a set of point proposals to represent heads in an image, being consistent with the human annotation results. By thorough analysis, we reveal the key step towards implementing such a novel idea is to assign optimal learning targets for these proposals. Therefore, we propose to conduct this crucial association in an one-to-one matching manner using the Hungarian algorithm. The P2PNet not only significantly surpasses state-of-the-art methods on popular counting benchmarks, but also achieves promising localization accuracy. The codes will be available at: https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet.

연구 동기 및 목표

밀도 지도나 가짜 바운딩 박스에 의존하는 기존의 밀도 기반 계산 방법의 한계를 해결하기 위해, 보다 직관적이고 정확한 접근 방식을 제안한다.
점 애너테이션을 직접 학습 타겟으로 사용하여, 군중 내 개별 인물의 국소화와 함께 계산을 동시에 수행하는 더 직관적인 방법을 개발한다.
국소화 오차와 계산 오차를 동시에 고려하는 종합적인 평가 지표를 제안하여, 다양한 군중 밀도 조건에서도 유의미한 평가가 가능하도록 한다.
단일 스케일 특징 맵을 기반으로 하여 점 기반의 머리 위치를 confidence 점수와 함께 예측하는 간단하면서도 효과적인 딥 러닝 아키텍처인 P2PNet를 설계한다.
히운가리안 알고리즘을 통한 예측값과 진짜값 간의 일대일 매칭이 국소화 정확도와 nAP 향상에 필수적임을 입증한다.

제안 방법

프레임워크는 점 애너테이션을 진짜값 타겟으로 사용하며, 추론 과정에서 개별 머리 위치를 나타내는 점 예측 집합을 직접 예측한다.
밀도 변화에 대응하고 중복 예측에 대해 벌점을 주는 등, 국소화 및 계산 성능을 종합적으로 평가하기 위해 새로운 평가 지표인 밀도 보정 평균 정밀도(nAP)를 제안한다.
단일 스케일 특징 맵을 사용하여 좌표 회귀 및 confidence 점수 예측을 수행하는 Point-to-Point Network (P2PNet)를 설계하며, 기준점은 격자나 레이아웃에서 샘플링한다.
핵심 혁신은 히운가리안 알고리즘을 통한 예측된 점 예측값과 진짜값 점 간의 일대일 매칭으로, 최적의 연결을 보장하고 모호하거나 충돌하는 지도 학습을 방지한다.
매칭되지 않은 예측값은 음성으로 분류되며, 이는 이식 가능한 매칭 과정을 통해 엔드 투 엔드로 모델을 훈련시켜 국소화 및 계산 정확도를 향상시킨다.
밀도 지도나 가짜 박스와 같은 중간 표현을 회피함으로써 파이프라인을 단순화하고 오류 전파를 줄인다.

실험 결과

연구 질문

RQ1순수하게 점 기반 프레임워크가 단순성과 효율성 유지 조건에서 기존 방법보다 밀도 계산 및 개별 국소화 성능에서 뛰어난 성능을 낼 수 있는가?
RQ2다양한 군중 밀도 조건에서 국소화 및 계산 성능을 종합적으로 평가할 수 있는 평가 지표를 어떻게 설계할 수 있는가?
RQ3훈련 과정에서 예측된 점 예측값을 진짜값 점과 연결하는 최적의 전략은 무엇이며, 이를 통해 계산 값의 과소 또는 과대 추정을 방지할 수 있는가?
RQ4히운가리안 알고리즘을 통한 일대일 매칭이 일대다 또는 다대일 연결에 비해 국소화 정확도를 뚜렷이 향상시키는가?
RQ5적절한 타겟 할당과 새로운 평가 지표와 결합된 단일 스케일 특징 맵 기반 아키텍처가 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

P2PNet는 모든 주요 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, ShanghaiTech PartA에서 두 번째로 우수한 방법인 ADSCNet 대비 MAE는 4.8% 감소하고 MSE는 12.9% 감소하였다.
UCF_CC_50에서 P2PNet는 MAE 85.32를 기록하여 이전 최고 성능을 낸 ADSCNet를 뛰어넘었으며, 두 번째로 우수한 방법 대비 2.1의 오차 감소를 기록하였다.
도전적인 UCF-QNRF 데이터셋에서 P2PNet는 MAE 85.32를 기록하여 이전 최고 성능를 낸 AMSNet를 뛰어넘었으며, 다양한 군중 밀도에 대한 강력한 일반화 능력을 입증하였다.
NWPU-Crowd에서 P2PNet는 가장 낮은 전체 MAE를 기록하였으며, 단일 스케일 특징 맵을 사용했음에도 불구하고 두 번째로 뛰어난 방법인 DM-Count 대비 12.4% 감소하였다.
제거 분석 결과, 히운가리안 알고리즘을 통한 일대일 매칭이 nAP를 뚜렷이 향상시키며, 스트라이드 4를 사용할 경우 최고의 nAPδ 66.8을 기록하여 국소화 정확도 향상이 확인되었다.
기준점의 그리드 레이아웃이 중심 레이아웃보다 略히 뛰어나며, nAPδ 64.4 대비 61.7을 기록하여 혼잡한 지역에서 더 조밀한 샘플링이 유리함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.