QUICK REVIEW

[논문 리뷰] Anchor-free Small-scale Multispectral Pedestrian Detection

Alexander Wolpert, Michael Teutsch|arXiv (Cornell University)|2020. 08. 19.

Video Surveillance and Tracking Methods인용 수 24

한 줄 요약

이 논문은 객체 박스 대신 객체 중심과 크기 예측을 활용하여 다중스펙트럼(가시광선 및 열화상 적외선) 소형 보행자 검출을 위한 앵커 프리, 단계별 객체 검출 프레임워크를 제안한다. 개선된 다중스펙트럼 특징 융합 및 데이터 증강 기법을 통해 KAIST 벤치마크에서 5.68%의 로그 평균 누락률을 달성하였으며, 이는 이전 최고 성능 대비 25% 향상된 성능이다.

ABSTRACT

Multispectral images consisting of aligned visual-optical (VIS) and thermal infrared (IR) image pairs are well-suited for practical applications like autonomous driving or visual surveillance. Such data can be used to increase the performance of pedestrian detection especially for weakly illuminated, small-scaled, or partially occluded instances. The current state-of-the-art is based on variants of Faster R-CNN and thus passes through two stages: a proposal generator network with handcrafted anchor boxes for object localization and a classification network for verifying the object category. In this paper we propose a method for effective and efficient multispectral fusion of the two modalities in an adapted single-stage anchor-free base architecture. We aim at learning pedestrian representations based on object center and scale rather than direct bounding box predictions. In this way, we can both simplify the network architecture and achieve higher detection performance, especially for pedestrians under occlusion or at low object resolution. In addition, we provide a study on well-suited multispectral data augmentation techniques that improve the commonly used augmentations. The results show our method's effectiveness in detecting small-scaled pedestrians. We achieve 5.68% log-average miss rate in comparison to the best current state-of-the-art of 7.49% (25% improvement) on the challenging KAIST Multispectral Pedestrian Detection Benchmark. Code: https://github.com/HensoldtOptronicsCV/MultispectralPedestrianDetection

연구 동기 및 목표

실제 감시 및 자율주행 환경에서 소형, 부분적으로 가림당하거나 해상도가 낮은 보행자를 탐지하는 데 도전하는 문제를 해결한다.
두 단계, 앵커 기반 검출기(예: Faster R-CNN)의 한계를 극복한다. 특히 다중스펙트럼 환경에서 계산 비용이 높고 소형 보행자에 대해 효과적이지 않다.
직접 객체 중심과 크기를 회귀하는 단순화된 단계별 아키텍처를 개발하여 소형 인스턴스에 대한 효율성과 성능을 향상시킨다.
다중스펙트럼 데이터 증강 전략을 조사하고 최적화하여 모델의 일반화 능력과 강인성을 향상시킨다.
특히 도전적인 소형 및 부분적으로 가림당한 경우에 대해 KAIST 다중스펙트럼 보행자 검출 벤치마크에서 최고 성능을 달성한다.

제안 방법

키포인트 유사 중심 히트맵과 크기 인식 회귀 헤드를 활용하여 객체 중심과 크기를 예측하는 단계별 앵커 프리 객체 검출 백본(예: CenterNet 또는 FCOS 스타일)을 적용한다.
학습 가능한 교차 모odal 주의 또는 잔차 연결이 있는 요소별 연결을 사용하여 시각(VIS) 및 열화상 적외선(IR) 모달리티 특징을 조기에 대칭적으로 융합한다.
기존의 앵커 박스 생성 및 영역 제안 네트워크를 객체 중심 좌표 및 크기의 직접 회귀로 대체하여 아키텍처의 복잡성을 감소시킨다.
공간, 강도, 모달리티 특화 증강 기법(예: 무작위 마스킹, VIS에 대한 색상 왜곡, IR에 대한 노이즈 주입 등)을 조합한 새로운 다중스펙트럼 데이터 증강 파이프라인을 도입하여 강인성을 향상시킨다.
희귀한 소형 보행자에 특화된 클래스 불균형 문제를 다루기 위해 포칼 손실 기반의 분류 헤드를 사용하여 모델을 훈련시킨다.
부드러운 L1 손실을 사용한 회귀와 포칼 손실을 사용한 분류를 동시에 최적화하여 중심 오프셋과 크기를 함께 회귀한다.

실험 결과

연구 질문

RQ1앵커 프리, 단계별 검출기가 다중스펙트럼 소형 보행자 검출에서 두 단계, 앵커 기반 모델을 능가할 수 있는가?
RQ2소형 보행자에 대해 중심 기반 객체 국소화가 앵커 기반 국소화보다 정확도와 효율성 측면에서 어떻게 비교되는가?
RQ3KAIST와 같은 도전적인 벤치마크에서 검출 성능을 향상시키는 데 가장 효과적인 다중스펙트럼 데이터 증강 기법은 무엇인가?
RQ4조기 다중모달 특징 융합이 부분적으로 가림당하거나 시야가 떨어지는 보행자의 검출에 얼마나 기여하는가?
RQ5영역 제안 네트워크의 복잡성 없이도 단순화된 아키텍처가 최고 성능을 달성할 수 있는가?

주요 결과

제안된 앵커 프리 방법은 KAIST 다중스펙트럼 보행자 검출 벤치마크에서 5.68%의 로그 평균 누락률을 달성하였으며, 이는 이전 최고 성능(7.49%) 대비 25% 상대적 향상이다.
모델은 소형 보행자에 대해 뛰어난 성능를 보이며, 20x20 픽셀 이하의 객체에서 검출 정확도가 크게 향상된다.
제안된 다중스펙트럼 데이터 증강 전략은 악조건의 조명 및 가림 조건에서의 일반화 능력을 향상시킨다.
단계별, 앵커 프리 설계는 모델 복잡성과 추론 시간을 감소시키면서도 두 단계 검출기의 성능을 유지하거나 초월한다.
중심 기반 국소화와 크기 예측은 앵커 기반 방법보다 부분적으로 가림당한 보행자의 보다 정밀하고 강인한 검출을 가능하게 한다.
VIS와 IR 특징의 조기 융합은 저대비 및 열화상 대비 상황에서 더 나은 특징 표현을 제공하여 검출 신뢰도를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.