[논문 리뷰] RetinaFace: Single-stage Dense Face Localisation in the Wild
RetinaFace는 얼굴 점수, 상자, 다섯 개의 얼굴 랜드마크 및 밀집 3D 얼굴 정보를 공동으로 예측하는 1단계 밀집 얼굴 위치 탐지기를 도입하여 WIDER FACE hard에서 최첨단 결과를 달성하고 얼굴 인식 벤치마크의 향상에 기여합니다.
Though tremendous strides have been made in uncontrolled face detection, accurate and efficient face localisation in the wild remains an open challenge. This paper presents a robust single-stage face detector, named RetinaFace, which performs pixel-wise face localisation on various scales of faces by taking advantages of joint extra-supervised and self-supervised multi-task learning. Specifically, We make contributions in the following five aspects: (1) We manually annotate five facial landmarks on the WIDER FACE dataset and observe significant improvement in hard face detection with the assistance of this extra supervision signal. (2) We further add a self-supervised mesh decoder branch for predicting a pixel-wise 3D shape face information in parallel with the existing supervised branches. (3) On the WIDER FACE hard test set, RetinaFace outperforms the state of the art average precision (AP) by 1.1% (achieving AP equal to 91.4%). (4) On the IJB-C test set, RetinaFace enables state of the art methods (ArcFace) to improve their results in face verification (TAR=89.59% for FAR=1e-6). (5) By employing light-weight backbone networks, RetinaFace can run real-time on a single CPU core for a VGA-resolution image. Extra annotations and code have been made available at: https://github.com/deepinsight/insightface/tree/master/RetinaFace.
연구 동기 및 목표
- 다양한 스케일과 가려짐이 광범위하게 분포하는 실제 환경에서 강건하고 효율적인 얼굴 위치 탐지를 촉진한다.
- 추가 감독(얼굴 랜드마크)과 자기 감독(밀집 3D 메시지) 신호를 활용하는 1단계 밀집 탐지기를 제안한다.
- 다중 작업 학습의 공동 학습이 탐지 정확도와 다운스트림 얼굴 인식을 향상시킨다는 것을 보인다.
- CPU 및 모바일 배치를 위한 경량화된 실시간 옵션을 제공한다.
- 추가 연구를 촉진하기 위해 주석과 코드를 공개한다.
제안 방법
- 다중 스케일 얼굴 위치화를 위해 피처 피라미드(P2–P6)를 갖춘 단일 단계 탐지기를 사용한다.
- 다섯 개의 얼굴 랜드마크를 예측하는 추가 감독 분기와 픽셀 단위 3D 얼굴 모양을 예측하는 밀집 회귀 분기를 추가한다.
- 그래프 합성곱을 기반으로 한 밀집 회귀 메시 디코더와 픽셀 단위 회귀 손실(L_pixel)이 있는 미분 가능한 3D 렌더러를 포함한다.
- 각 앵커마다 분류, 박스 회귀, 랜드마크 회귀, 밀집 픽셀 단위 회귀를 결합한 다중 작업 손실을 최적화한다.
- 문맥 모듈에서 변형 가능한 컨볼루션을 활용하고 클래스 불균형을 위한 OHEM이 포함된 앵커 기반 학습.
- 경량 백본(예: MobileNet-0.25)으로 실시간 추론을 가능하게 하고 CPU/GPU에 맞춘 확장 가능한 옵션을 제공한다.
실험 결과
연구 질문
- RQ1얼굴 랜드마크의 추가 감독이 단일 단계 밀집 탐지기에서 Hard-얼굴 탐지를 향상시킬 수 있는가?
- RQ2자기 감독 밀집 3D 메시 회귀 분기를 추가하는 것이 픽셀 단위 얼굴 위치화와 전체 탐지 정확도를 향상시키는가?
- RQ3랜드마크와 밀집 회귀의 결합이 WIDER FACE 하위 집합에서 얼굴 탐지 성능에 미치는 영향은 무엇인가?
- RQ4탐지 및 정렬에 사용될 때 RetinaFace가 다운스트림 얼굴 인식에 미치는 영향은?
- RQ5CPU 및 모바일 하드웨어에서 RetinaFace의 실시간 성능 특성은 무엇인가?
주요 결과
- WIDER FACE hard에서 RetinaFace는 AP 91.4%를 달성하여 이전 SOTA보다 1.1pp 개선했다.
- IJB-C에서 RetinaFace는 ArcFace 검증을 FAR 1e-6에서 TAR 89.59%로 향상시킨다.
- MobileNet-0.25를 사용하는 경량 RetinaFace는 실시간 속도로 동작한다: CPU에서 VGA 이미지에서 60 FPS, ARM에서 640×480 기준 16 FPS.
- 다섯 개의 얼굴 랜드마크가 Hard 서브셋 AP 및 WIDER FACE의 mAP를 크게 향상시킨다(랜드마크 분기 + 0.775% mAP 증가).
- 밀집 회귀만으로는 Easy/Medium에서 도움이 될 수 있으나 Hard에서는 약간 악화될 수 있으며, 랜드마크와의 공동 학습이 추가 이득을 준다.
- 밀집 3D 회귀는 자기 감독으로 학습되며 감독된 밀집 방법들과 경쟁하며 탐지 및 정렬에 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.