Skip to main content
QUICK REVIEW

[논문 리뷰] S$^3$FD: Single Shot Scale-invariant Face Detector

Shifeng Zhang, Xiangyu Zhu|arXiv (Cornell University)|2017. 08. 17.
Face recognition and analysis참고 문헌 57인용 수 33
한 줄 요약

S$^3$FD는 다층 앵커, 스케일 보정 매칭, 최대값 배경 레이블링을 통한 스케일에 공정한 프레임워크를 활용해 단일 스텝, 스케일 불변 얼굴 검출기를 제안한다. 이는 소형 얼굴 검출을 향상시킨다. WIDER FACE, PASCAL, FDDB, AFW에서 최고 성능을 기록하며, Titan X (Pascal)에서 36 FPS를 달성한다.

ABSTRACT

This paper presents a real-time face detector, named Single Shot Scale-invariant Face Detector (S$^3$FD), which performs superiorly on various scales of faces with a single deep neural network, especially for small faces. Specifically, we try to solve the common problem that anchor-based detectors deteriorate dramatically as the objects become smaller. We make contributions in the following three aspects: 1) proposing a scale-equitable face detection framework to handle different scales of faces well. We tile anchors on a wide range of layers to ensure that all scales of faces have enough features for detection. Besides, we design anchor scales based on the effective receptive field and a proposed equal proportion interval principle; 2) improving the recall rate of small faces by a scale compensation anchor matching strategy; 3) reducing the false positive rate of small faces via a max-out background label. As a consequence, our method achieves state-of-the-art detection performance on all the common face detection benchmarks, including the AFW, PASCAL face, FDDB and WIDER FACE datasets, and can run at 36 FPS on a Nvidia Titan X (Pascal) for VGA-resolution images.

연구 동기 및 목표

  • 객체 크기가 감소함에 따라 앵커 기반 얼굴 검출기의 성능 저하 문제를 해결한다. 특히 소형 및 중형 얼굴에 대해 집중한다.
  • 큰 스트라이드와 일치하지 않는 수용 영역으로 인한 소형 얼굴의 특징 표현 및 앵커 매칭의 한계를 극복한다.
  • 밀도 높은 소형 앵커로 인한 오분류를 줄이기 위해 최대값 배경 레이블 전략을 도입한다.
  • 스케일 보정 앵커 매칭 메커니즘을 통해 소형 및 외곽 얼굴의 재현율을 향상시킨다.
  • 다양한 벤치마크에서 최고 성능을 달성하면서도 실시간 추론 속도를 유지한다.

제안 방법

  • 모든 얼굴 크기에 적합한 특징 표현을 확보하기 위해 스트라이드가 4에서 128 픽셀인 여러 특징 레이어에 걸쳐 앵커를 타일링한다.
  • 효율적 수용 영역 분석과 균형 잡힌 스케일 분포를 위한 등비 간격 원칙을 활용해 앵커 크기를 16에서 512 픽셀로 설계한다.
  • 두 단계의 스케일 보정 앵커 매칭 전략을 도입한다: 첫 번째로 IoU 임계값을 조정하고, 두 번째로 스케일 인식 보정을 통해 모든 얼굴 크기가 충분한 앵커와 매칭되도록 보장한다.
  • 가장 낮은 검출 레이어에 최대값 배경 레이블을 제안하여 과도한 소형 음성 앵커로 인한 오분류를 억제한다.
  • 최종 박스 선택을 위해 다중 스케일 특징 융합과 비최대 억제(NMS)를 사용하는 VGG16을 백본 네트워크로 활용한다.
  • 추론 속도 향상을 위해 NMS 이전에 신뢰도 임계값(0.05)과 상위-K 필터링(400개 박스)을 적용한다.

실험 결과

연구 질문

  • RQ1왜 앵커 기반 검출기는 소형 얼굴을 효과적으로 검출하지 못하는가? 특징 표현과 앵커 매칭의 근본 원인은 무엇인가?
  • RQ2어떤 방식으로 앵커 크기와 레이어 배치를 최적화하면 모든 얼굴 크기에 대해 일관된 특징 커버리지가 보장될 수 있는가?
  • RQ3스케일 보정 전략은 이산적 앵커 크기와 잘 맞지 않는 얼굴의 재현율 향상에 기여할 수 있는가?
  • RQ4최대값 배경 레이블 전략은 밀도 높은 소형 앵커로 인한 오분류를 어느 정도 감소시킬 수 있는가?
  • RQ5통합된 단일 스텝 검출기가 WIDER FACE, FDDB, PASCAL과 같은 다양한 벤치마크에서 최고 성능을 달성할 수 있는가?

주요 결과

  • WIDER FACE 검증 세트에서 S$^3$FD는 각각 0.937(Easy), 0.924(Medium), 0.852(Hard)의 mAP를 기록했으며, 테스트 세트에선 0.928, 0.913, 0.840을 달성했다.
  • FDDB 데이터셋에서 S$^3$FD는 연속적이고 비연속적인 ROC 곡선 모두에서 이전 모든 방법을 능가하며, 제약 없는 얼굴 변형에 대한 강건성을 입증했다.
  • VGA 해상도 이미지에서 단일 Nvidia Titan X (Pascal)에서 36 FPS의 추론 속도를 기록해 실시간 성능을 확인했다.
  • 음성 앵커의 75% 이상이 가장 낮은 레이어(conv3_3)에서 유래하며, 이는 최대값 배경 레이블 전략으로 억제되어 오분류가 감소했다.
  • 스케일 보정 매칭 전략은 이전에 표준 IoU 기반 매칭에서 너무 적은 앵커와 매칭되던 소형 및 외곽 얼굴의 재현율을 크게 향상시켰다.
  • 다층 앵커를 활용한 스케일에 공정한 프레임워크는 모든 얼굴 크기에 충분한 특징 표현을 보장하여 소형 얼굴의 특징 부족 문제를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.