Skip to main content
QUICK REVIEW

[논문 리뷰] Face Detection using Deep Learning: An Improved Faster RCNN Approach

Xudong Sun, Pengcheng Wu|arXiv (Cornell University)|2017. 01. 28.
Face recognition and analysis참고 문헌 27인용 수 27
한 줄 요약

이 논문은 특징 병합, 하드 음성 마이닝, 다중 스케일 훈련 및 최적화된 앵커 구성 등을 통합하여 향상된 Faster R-CNN 프레임워크를 제안한다. 이 방법은 FDDB 벤치마크에서 최신 기술 수준의 성능을 달성하여, 이전에 발표된 모든 방법보다 ROC 곡선 아래 면적에서 뛰어난 성능을 보였다.

ABSTRACT

In this report, we present a new face detection scheme using deep learning and achieve the state-of-the-art detection performance on the well-known FDDB face detetion benchmark evaluation. In particular, we improve the state-of-the-art faster RCNN framework by combining a number of strategies, including feature concatenation, hard negative mining, multi-scale training, model pretraining, and proper calibration of key parameters. As a consequence, the proposed scheme obtained the state-of-the-art face detection performance, making it the best model in terms of ROC curves among all the published methods on the FDDB benchmark.

연구 동기 및 목표

  • 딥 러닝을 활용하여 전통적인 수작업 특징 방법의 한계를 해결하고자 한다.
  • 특수화된 객체 검출 작업인 얼굴 검출을 위해 Faster R-CNN 프레임워크를 전문화하여 향상시키고자 한다.
  • 부정확하거나 작은 얼굴, 비면을 향한 검출 성능을 향상시키고자 한다.
  • FDDB 벤치마크에서 최신 기술 수준의 결과를 달성하고자 한다. 이는 얼굴 검출의 표준 평가 세트이다.
  • 다양한 공학 전략이 얼굴 검출 정확도 향상에 기여하는지 검증하고자 한다.

제안 방법

  • 제안된 방법은 다중 컨볼루션 레이어에서의 특징 병합을 도입하여 다중 스케일 특징 표현을 향상시킴으로써 Faster R-CNN을 확장한다.
  • 훈련 중 하드 음성 마이닝을 적용하여 어려운 음성 샘플에 집중함으로써 오분류를 줄인다.
  • 입력 이미지의 무작위 스케일 조정을 통한 데이터 증강을 통해 다중 스케일 훈련을 구현함으로써 척도 변화에 대한 내성을 향상시킨다.
  • 영역 제안 네트워크(RPN)의 앵커 구성은 $64 \times 64$ 크기 그룹을 추가하여 앵커 수를 9개에서 12개로 증가시켜 작은 얼굴 검출에 유리하게 수정한다.
  • FDDB에 대해 미세조정하기 전에 더 큰, 더 과도한 WIDER FACE 데이터셋에서 사전 훈련을 수행하여 일반화 성능을 향상시킨다.
  • 각 전략의 개별 및 병합 기여도를 평가하기 위해 분석 실험(ablation study)를 수행한다.

실험 결과

연구 질문

  • RQ1딥 러닝 프레임워크에서 특징 병합과 다중 스케일 훈련은 얼굴 검출 성능에 어떤 영향을 미치는가?
  • RQ2하드 음성 마이닝은 얼굴 검출 모델에서 오분류를 어느 정도 줄이는가?
  • RQ3WIDER FACE와 같은 더 큰, 더 다양한 데이터셋에서의 사전 훈련은 더 작은 FDDB 벤치마크에서 일반화 성능을 향상시키는가?
  • RQ4RPN에서 앵커 크기를 수정하면 작은 얼굴이나 가림을 겪는 얼굴 검출에 어떤 영향을 미치는가?
  • RQ5FDDB 벤치마크에서 전체 검출 성능을 최고로 끌어올리는 전략 조합은 무엇인가?

주요 결과

  • 제안된 방법은 FDDB 벤치마크에서 ROC 곡선 아래 면적(AUC)이 가장 높아, 이전에 발표된 모든 방법을 능가하는 성능을 달성했다.
  • 분석 실험 결과, 앵커 수정, 사전 훈련, 하드 음성 마이닝, 특징 병합, 다중 스케일 훈련 전략을 모두 조합했을 때 성능이 가장 우수했다 (ID 7).
  • 64 \times 64 크기 그룹을 포함한 앵커 수를 12개로 증가시켜 기존 9개 앵커 구성보다 작은 얼굴 검출 성능이 향상되었다.
  • WIDER FACE에서의 사전 훈련은 재현율을 향상시켰지만 오분류를 증가시켰으며, 이는 하드 음성 마이닝으로 효과적으로 보완되었다.
  • 특징 병합은 다중 수준의 특징 학습을 가능하게 하여 모델 성능을 크게 향상시켰으며, 분석 실험에서 이를 확인할 수 있었다 (ID 2 대비 ID 3).
  • 다중 스케일 훈련은 특히 흐림, 가림, 극단적인 자세 등의 어려운 케이스에서 검출 정확도를 추가로 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.