[논문 리뷰] Detection in Crowded Scenes: One Proposal, Multiple Predictions
이 논문은 각 제안 영역이 단일 객체가 아닌 다중 겹침 객체를 예측할 수 있도록 하는 새로운 객체 검출 프레임워크를 제안한다. 이는 매우 혼잡하고 겹치는 객체를 탐지하는 데 어려움을 해결한다. EMD 손실을 통한 세트 예측과 Set NMS를 통한 중복 제거를 통해, CrowdHuman에서 4.9%의 AP 향상과 CityPersons에서 MR⁻²에 1.0% 향상을 달성하였으며, COCO를 포함한 다양한 데이터셋에서 일관된 성능 향상을 보였다.
We propose a simple yet effective proposal-based object detector, aiming at detecting highly-overlapped instances in crowded scenes. The key of our approach is to let each proposal predict a set of correlated instances rather than a single one in previous proposal-based frameworks. Equipped with new techniques such as EMD Loss and Set NMS, our detector can effectively handle the difficulty of detecting highly overlapped objects. On a FPN-Res50 baseline, our detector can obtain 4.9\% AP gains on challenging CrowdHuman dataset and 1.0\% $ ext{MR}^{-2}$ improvements on CityPersons dataset, without bells and whistles. Moreover, on less crowed datasets like COCO, our approach can still achieve moderate improvement, suggesting the proposed method is robust to crowdedness. Code and pre-trained models will be released at https://github.com/megvii-model/CrowdDetection.
연구 동기 및 목표
- 혼잡한 환경에서 객체가 심하게 겹칠 경우 표준 제안 기반 검출기가 다중 겹침 객체를 탐지하지 못하는 문제를 해결한다.
- 특성 유사성과 공간적 겹침으로 인해 정확하지만 겹치는 예측을 NMS가 효과적으로 억제하지 못하는 한계를 극복한다.
- 기존 검출기의 성능을 크게 높이지 않으면서도 계산 비용을 거의 증가시키지 않는 단순하고 즉각 적용 가능한 솔루션을 개발한다.
- 혼잡도가 다양할 경우에도 안정적인 성능을 유지를 보장한다. 즉, 매우 혼잡한 환경부터 흐린 환경까지 모두 포함한다.
- 특히 도전적인 상황에서 어려운 객체 탐지의 재현율을 향상시키고, 잡음 많은 예측을 줄인다.
제안 방법
- 각 제안에 대해 단일 객체 예측을 다중 객체 예측으로 대체하여, 각 제안이 후보 검출 결과의 집합을 출력하도록 한다.
- 실제 객체 집합과의 정렬을 향상시키기 위해, 세트 예측을 위한 지도 학습을 위한 Earth Mover's Distance (EMD) 손실을 도입한다.
- 개별 박스가 아닌, 서로 겹치는 제안에서 유래한 중복된 객체 집합을 억제하는 후처리 방법인 Set NMS를 제안한다.
- 예측된 객체 집합 내에서 잡음 있는 예측을 걸러내기 위해 정밀도를 향상시키는 보완 모듈(RM)을 통합한다.
- FPN과 같은 기존 제안 기반 검출기와 호환되며, 단지 작은 경량 예측 헤드만 추가로 필요하다.
- 고정된 크기의 바운딩 박스와 신뢰도 점수 집합을 각 제안에 대해 예측하는 학습 가능한 세트 예측 헤드를 사용한다.
실험 결과
연구 질문
- RQ1각 제안에서 다중 객체를 예측하는 것이, 객체가 심하게 겹쳐 혼잡한 환경에서 검출 성능을 향상시키는 데 효과적인가?
- RQ2세트 수준의 예측 학습에서 표준 회귀 및 분류 손실에 비해 제안된 EMD 손실은 어떻게 성능을 높이는가?
- RQ3Set NMS는 유효한 검출 결과를 제거하지 않고, 겹치는 제안에서 유래한 중복 예측을 효과적으로 억제할 수 있는가?
- RQ4이 방법은 객체 겹침이 거의 없는 COCO나 CityPersons와 같은 덜 혼잡한 데이터셋으로도 잘 일반화되는가?
- RQ5보완 모듈은 어려운 겹침 케이스에서 재현율을 유지하면서 얼마나 많은 잡음 예측을 줄이는가?
주요 결과
- 제안된 방법은 FPN 기반 모델 대비 CrowdHuman 데이터셋에서 4.9%의 절대 AP 향상을 달성하였으며, 특별한 기능을 추가하지 않은 상태에서도 성능 향상을 보였다.
- CityPersons에서 기반 모델 대비 MR⁻²는 1.0% 향상되고, AP는 0.9% 향상되었으며, 혼잡한 객체의 재현율은 8.9% 증가하였다.
- COCO에서 기반 모델 대비 1.0% 높은 AP를 기록하였고, Soft-NMS 대비 0.5% 향상되어, 다중 클래스 및 덜 혼잡한 환경으로의 일반화 능력을 입증하였다.
- CityPersons에서 혼잡한 객체의 재현율은 총 108개 중 64개에서 96개로 증가하여, 어려운 겹침 케이스의 탐지 능력 향상을 명확히 보여주었다.
- COCO에서 대형 객체(APₗ)의 경우 1.5% 향상되어, 객체 크기와 겹침 정도가 성능 향상의 핵심 요소임을 시사한다.
- Set NMS는 이웃한 제안에서 유래한 중복 예측을 효과적으로 억제하여, 신뢰도 임계값에 의존하지 않고도 잡음 예측을 줄이고 정밀도를 향상시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.