QUICK REVIEW

[논문 리뷰] Face Detection using Deep Learning: An Improved Faster RCNN Approach

Xudong Sun, Pengcheng Wu|arXiv (Cornell University)|2017. 01. 28.

Face recognition and analysis참고 문헌 27인용 수 27

한 줄 요약

이 논문은 특징 병합, 하드 음성 마이닝, 다중 스케일 훈련 및 최적화된 앵커 구성 등을 통합하여 향상된 Faster R-CNN 프레임워크를 제안한다. 이 방법은 FDDB 벤치마크에서 최신 기술 수준의 성능을 달성하여, 이전에 발표된 모든 방법보다 ROC 곡선 아래 면적에서 뛰어난 성능을 보였다.

ABSTRACT

In this report, we present a new face detection scheme using deep learning and achieve the state-of-the-art detection performance on the well-known FDDB face detetion benchmark evaluation. In particular, we improve the state-of-the-art faster RCNN framework by combining a number of strategies, including feature concatenation, hard negative mining, multi-scale training, model pretraining, and proper calibration of key parameters. As a consequence, the proposed scheme obtained the state-of-the-art face detection performance, making it the best model in terms of ROC curves among all the published methods on the FDDB benchmark.

연구 동기 및 목표

딥 러닝을 활용하여 전통적인 수작업 특징 방법의 한계를 해결하고자 한다.
특수화된 객체 검출 작업인 얼굴 검출을 위해 Faster R-CNN 프레임워크를 전문화하여 향상시키고자 한다.
부정확하거나 작은 얼굴, 비면을 향한 검출 성능을 향상시키고자 한다.
FDDB 벤치마크에서 최신 기술 수준의 결과를 달성하고자 한다. 이는 얼굴 검출의 표준 평가 세트이다.
다양한 공학 전략이 얼굴 검출 정확도 향상에 기여하는지 검증하고자 한다.

제안 방법

제안된 방법은 다중 컨볼루션 레이어에서의 특징 병합을 도입하여 다중 스케일 특징 표현을 향상시킴으로써 Faster R-CNN을 확장한다.
훈련 중 하드 음성 마이닝을 적용하여 어려운 음성 샘플에 집중함으로써 오분류를 줄인다.
입력 이미지의 무작위 스케일 조정을 통한 데이터 증강을 통해 다중 스케일 훈련을 구현함으로써 척도 변화에 대한 내성을 향상시킨다.
영역 제안 네트워크(RPN)의 앵커 구성은 $64 \times 64$ 크기 그룹을 추가하여 앵커 수를 9개에서 12개로 증가시켜 작은 얼굴 검출에 유리하게 수정한다.
FDDB에 대해 미세조정하기 전에 더 큰, 더 과도한 WIDER FACE 데이터셋에서 사전 훈련을 수행하여 일반화 성능을 향상시킨다.
각 전략의 개별 및 병합 기여도를 평가하기 위해 분석 실험(ablation study)를 수행한다.

실험 결과

연구 질문

RQ1딥 러닝 프레임워크에서 특징 병합과 다중 스케일 훈련은 얼굴 검출 성능에 어떤 영향을 미치는가?
RQ2하드 음성 마이닝은 얼굴 검출 모델에서 오분류를 어느 정도 줄이는가?
RQ3WIDER FACE와 같은 더 큰, 더 다양한 데이터셋에서의 사전 훈련은 더 작은 FDDB 벤치마크에서 일반화 성능을 향상시키는가?
RQ4RPN에서 앵커 크기를 수정하면 작은 얼굴이나 가림을 겪는 얼굴 검출에 어떤 영향을 미치는가?
RQ5FDDB 벤치마크에서 전체 검출 성능을 최고로 끌어올리는 전략 조합은 무엇인가?

주요 결과

제안된 방법은 FDDB 벤치마크에서 ROC 곡선 아래 면적(AUC)이 가장 높아, 이전에 발표된 모든 방법을 능가하는 성능을 달성했다.
분석 실험 결과, 앵커 수정, 사전 훈련, 하드 음성 마이닝, 특징 병합, 다중 스케일 훈련 전략을 모두 조합했을 때 성능이 가장 우수했다 (ID 7).
64 \times 64 크기 그룹을 포함한 앵커 수를 12개로 증가시켜 기존 9개 앵커 구성보다 작은 얼굴 검출 성능이 향상되었다.
WIDER FACE에서의 사전 훈련은 재현율을 향상시켰지만 오분류를 증가시켰으며, 이는 하드 음성 마이닝으로 효과적으로 보완되었다.
특징 병합은 다중 수준의 특징 학습을 가능하게 하여 모델 성능을 크게 향상시켰으며, 분석 실험에서 이를 확인할 수 있었다 (ID 2 대비 ID 3).
다중 스케일 훈련은 특히 흐림, 가림, 극단적인 자세 등의 어려운 케이스에서 검출 정확도를 추가로 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.