Skip to main content
QUICK REVIEW

[논문 리뷰] Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

Wei Liu, Irtiza Hasan|arXiv (Cornell University)|2019. 04. 05.
Advanced Neural Network Applications참고 문헌 72인용 수 29
한 줄 요약

이 논문은 깊이 있는 컨volution 특징을 사용하여 보행자 및 얼굴 검출을 중심점과 척도 예측 문제로 재정의함으로써 박스 기반 검출 기법을 제거한 방법을 제안한다. 객체 중심점을 학습 가능한 의미적 키포인트로 간주하고 표준 컨볼루션을 통해 척도를 예측함으로써, 단일 단계, 앵커 기반 없는 프로세스로 검출을 단순화하여 다양한 벤치마크에서 경쟁력 있는 정확도와 뛰어난 일반화 성능을 달성한다.

ABSTRACT

Object detection generally requires sliding-window classifiers in tradition or anchor box based predictions in modern deep learning approaches. However, either of these approaches requires tedious configurations in boxes. In this paper, we provide a new perspective where detecting objects is motivated as a high-level semantic feature detection task. Like edges, corners, blobs and other feature detectors, the proposed detector scans for feature points all over the image, for which the convolution is naturally suited. However, unlike these traditional low-level features, the proposed detector goes for a higher-level abstraction, that is, we are looking for central points where there are objects, and modern deep models are already capable of such a high-level semantic abstraction. Besides, like blob detection, we also predict the scales of the central points, which is also a straightforward convolution. Therefore, in this paper, pedestrian and face detection is simplified as a straightforward center and scale prediction task through convolutions. This way, the proposed method enjoys a box-free setting. Though structurally simple, it presents competitive accuracy on several challenging benchmarks, including pedestrian detection and face detection. Furthermore, a cross-dataset evaluation is performed, demonstrating a superior generalization ability of the proposed method

연구 동기 및 목표

  • 박스 기반의 설계나 슬라이딩 윈도우를 제거함으로써 객체 검출을 고수준 의미적 특징 검출 작업으로 재정의함.
  • 컨볼루션 네트워크를 사용하여 객체 검출을 직접적인 중심점과 척도 예측 문제로 단순화함.
  • 박스 기반 설계의 편향을 제거함으로써 다양한 데이터셋 간의 일반화 능력을 향상시킴.
  • 딥 러닝 모델이 명시적인 바운딩 박스 감독 없이도 자연스럽게 의미적 객체 중심점과 척도를 탐지할 수 있음을 입증함.

제안 방법

  • 깊이 있는 컨volution 네트워크를 사용하여 객체 중심점을 고수준 의미적 특징으로 검출하며, 이는 에지나 코너 검출기와 유사하게 취급된다.
  • 각 검출된 중심점의 척도를 별도의 컨볼루션 헤드를 통해 예측함으로써 척도 인식된 국소화를 가능하게 한다.
  • 전체 검출 파이프라인은 앵커 박스나 영역 제안 없이 단일 단계, 엔드 투 엔드 컨볼루션 네트워크로 구현된다.
  • 모델은 표준 회귀 손실을 사용하여 특징 맵에서 중심 위치와 척도 추정치를 직접적으로 회귀하도록 훈련된다.
  • 현대 CNN의 계층적 특징 추상화 기능을 활용하여 저수준 기하학적 사전 지식에 의존하지 않고 의미 중심점을 탐지함.
  • 이 방법은 보행자 및 얼굴 검출 벤치마크에서 평가되어 다양한 데이터셋에서의 강건성을 보여준다.

실험 결과

연구 질문

  • RQ1앵커 박스나 슬라이딩 윈도우 없이도 객체 검출을 중심점과 척도 예측 문제로 재정의할 수 있는가?
  • RQ2딥 컨볼루션 네트워크가 보행자 및 얼굴과 같은 고수준 의미적 중심점을 효과적으로 탐지할 수 있는가?
  • RQ3박스 기반 방법에 비해 박스 없는 검출 접근 방식이 다양한 데이터셋 간에 더 나은 일반화 성능을 보이는가?
  • RQ4중심점과 척도 예측 방법의 성능가 최신의 앵커 기반 검출기와 비교하여 보행자 및 얼굴 검출 작업에서 어떻게 나타나는가?

주요 결과

  • 제안된 박스 기반 방법은 보행자 및 얼굴 검출을 위한 여러 도전적인 벤치마크에서 경쟁력 있는 검출 정확도를 달성한다.
  • 다양한 데이터셋 간의 평가에서 뛰어난 일반화 능력을 보이며 도메인 이동에 대한 강건성을 시사한다.
  • 앵커 박스와 슬라이딩 윈도우를 제거함으로써 검출 파이프라인을 단순화하면서도 높은 성능를 유지한다.
  • 이 방법은 의미 중심점 탐지에 깊이 있는 특징을 효과적으로 활용하며, 이러한 고수준 추상화가 검출에 실현 가능하고 효과적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.