Skip to main content
QUICK REVIEW

[논문 리뷰] Face Detection through Scale-Friendly Deep Convolutional Networks

Shuo Yang, Yuanjun Xiong|arXiv (Cornell University)|2017. 06. 09.
Face recognition and analysis참고 문헌 21인용 수 115
한 줄 요약

ScaleFace는 이미지 피라미드 없이도 단일 백본에 통합된 스케일-변이 탐지기를 도입하여 넓은 스케일 범위에서 얼굴을 탐지하고 실용적인 속도와 함께 높은 정확도를 달성합니다. 스케일을 분할하고 특화된 네트워크 구조를 배치하며 엔드 투 엔드 학습을 위한 표현을 공유합니다.

ABSTRACT

In this paper, we share our experience in designing a convolutional network-based face detector that could handle faces of an extremely wide range of scales. We show that faces with different scales can be modeled through a specialized set of deep convolutional networks with different structures. These detectors can be seamlessly integrated into a single unified network that can be trained end-to-end. In contrast to existing deep models that are designed for wide scale range, our network does not require an image pyramid input and the model is of modest complexity. Our network, dubbed ScaleFace, achieves promising performance on WIDER FACE and FDDB datasets with practical runtime speed. Specifically, our method achieves 76.4 average precision on the challenging WIDER FACE dataset and 96% recall rate on the FDDB dataset with 7 frames per second (fps) for 900 * 1300 input image.

연구 동기 및 목표

  • 현실 세계의 장면에서 매우 넓은 스케일 범위에 걸친 얼굴 탐지의 도전을 해결하고자 한다.
  • 단일 백본에 통합된 스케일-변이 네트워크를 사용하는 스케일-친화적 탐지기 아키텍처를 제안한다.
  • 탐지 성능을 최적화하기 위해 스케일 범위를 어떻게 분할하고 네트워크 구조를 배정할지 결정한다.
  • 공유 표현으로의 엔드투엔드 학습이 정확도와 효율성을 동시에 달성할 수 있음을 보인다.

제안 방법

  • 큰 스케일 범위를 서로 다른 서브 범위로 나누고, 각 서브 범위는 정밀하게 설계된 깊이와 공간 풀링을 갖춘 특화된 네트워크로 모델화한다.
  • 스케일-변이 탐지기를 단일 백본 네트워크(ResNet-50 like)에 통합하여 표현을 공유한다.
  • 다중 스케일 피처에서 ROI pooling을 사용하여 이미지 피라미드 추론 없이 얼굴을 분류하고 위치를 추정한다.
  • 다른 스케일 범위에 대해 스케일에 맞는 ROIs와 ground-truth를 사용해 탐지기를 학습시키고, online hard negative mining을 적용한다.
  • Non-maximum suppression으로 스케일-변이 탐지기들의 예측을 모아 최종 탐지 결과를 형성한다.
  • 백본 필터를 줄여 런타임을 개선하고 AP 손실을 최소화하여 모델을 압축한다.

실험 결과

연구 질문

  • RQ1정확도와 속도를 최대화하기 위해 얼굴 탐지용 스케일 범위를 최적으로 어떻게 분할해야 할까?
  • RQ2백본을 공유하는 스케일-변이 탐지기가 넓은 스케일의 얼굴 탐지에서 단일 스케일 또는 순진한 앙상블보다 더 나은 성능을 보일 수 있을까?
  • RQ3특징 맵에서 투영된 ROI 스케일과 ROI pooling 템플릿 간 정 alignment이 탐지 성능에 어떤 영향을 미치는가?
  • RQ4다수의 스케일 특화 탐지기를 하나의 네트워크로 결합할 때 정확도와 런타임 간의 트레이드오프는 무엇인가?

주요 결과

  • 얼굴 스케일은 대상 스케일에 맞춘 ROI pooling이 있는 전용 네트워크 구조의 혜택을 받으며, 부적절한 ROI 매핑은 성능을 저하시키는 것으로 나타났다.
  • 외관 변 variation에 따라 스케일을 3~4개 그룹으로 분할하고 적절한 풀링 스트라이드를 할당하면 WIDER FACE의 Easy/Medium/Hard 설정에서 AP가 크게 향상된다.
  • 스케일-변이 탐지기들 간의 공동 최적화된 공유 표현은 WIDER FACE에서 AP 면에서 순진한 앙상블보다 우수하다.
  • ScaleFace는 WIDER FACE Hard에서 4 fps로 76.4 AP를 달성하며 FDDB 재현율에서 (200 FP에서 94.55%, 2000 FP에서 96%)의 recall을 달성한다.
  • 축소된 ScaleFace-Fast 변형은 900x1300 이미지당 160 ms에서 75.5 AP를 달성하며 HR보다 약 10배 빠르고 최소한의 AP 손실을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.