[논문 리뷰] BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs
BlazeFace는 모바일 GPU 추론에 최적화된 경량 얼굴 탐지기로, GPU 친화적 SSD 유사 앵커 체계와 새로운 매듭 해상도 방법으로 플래그십 기기에서 200–1000+ FPS를 달성합니다. 또한 AR 파이프라인에서 회전 인식 자르기를 위한 6개의 얼굴 키포인트를 제공합니다.
We present BlazeFace, a lightweight and well-performing face detector tailored for mobile GPU inference. It runs at a speed of 200-1000+ FPS on flagship devices. This super-realtime performance enables it to be applied to any augmented reality pipeline that requires an accurate facial region of interest as an input for task-specific models, such as 2D/3D facial keypoint or geometry estimation, facial features or expression classification, and face region segmentation. Our contributions include a lightweight feature extraction network inspired by, but distinct from MobileNetV1/V2, a GPU-friendly anchor scheme modified from Single Shot MultiBox Detector (SSD), and an improved tie resolution strategy alternative to non-maximum suppression.
연구 동기 및 목표
- AR 파이프라인에 최적화된 모바일 기기를 위한 컴팩트하고 GPU 친화적인 얼굴 탐지기를 개발한다.
- 높은 얼굴 감지 정확도를 유지하면서 추론 속도를 향상시킨다.
- 모바일 GPU에 맞춘 아키텍처 조정(앵커, tie-resolution)을 도입하고 비디오 스트림의 지터를 줄인다.
- 하위 작업 개선을 위해 회전 인식 자르기를 가능하게 하는 6개의 키포인트를 사용한다.
제안 방법
- 빠른 탐지를 위해 맞춤화된 MobileNetV1/V2에서 영감을 받은 경량 특징 추출기를 설계한다.
- 8x8 특징 맵에서 픽셀당 6개의 앵커를 갖는 GPU 친화적 앵커 체계를 도입한다.
- NMS의 대안으로 tie-resolution 전략을 제안하여 겹쳐진 예측을 안정화한다.
- 회전 추정을 위해 눈 중앙, 귀 tragions, 입 중앙, 코 끝의 6개 얼굴 키포인트를 생성한다.
- 앵커 중첩으로 인한 지터를 줄이고 더 매끄러운 시계열 예측을 가능하게 하기 위해 전체 해상도 8x8 특징 맵을 유지한다.
실험 결과
연구 질문
- RQ1콤팩트한 CNN 백본과 GPU 친화적 앵커가 모바일 GPU에서 실시간 얼굴 탐지를 제공할 수 있는가?
- RQ2밀집한 앵커 상황에서 기존 NMS에 비해 새로운 tie-resolution 방법이 안정성을 향상시키는가?
- RQ3모바일 GPU에서 BlazeFace의 정확도와 대기 시간은 MobileNetV2-SSD와 어떻게 비교되는가?
- RQ4추가적인 얼굴 키포인트가 회전 인식 자르기를 가능하게 하여 하류 AR 작업을 개선할 수 있는가?
주요 결과
| 모델 | 평균 정밀도 | 추론 시간, ms |
|---|---|---|
| MobileNetV2-SSD | 97.95% | 2.1 |
| Ours | 98.61% | 0.6 |
- BlazeFace는 iPhone XS에서 TensorFlow Lite GPU를 사용하여 FP16로 전면 얼굴에 대해 98.61% 평균 정밀도와 0.6 ms 추론 시간을 달성한다.
- MobileNetV2-SSD는 동일 프레임워크에서 97.95% AP와 2.1 ms 추론 시간을 달성한다.
- 기기 전반에 걸쳐 BlazeFace는 추론 속도에서 MobileNetV2-SSD보다 현저히 우수하다(예: iPhone XS: 0.6 ms 대 2.1 ms).
- 제안된 tie-resolution 전략은 전면 카메라 데이터 세트에서 최대 40%, 후면 카메라 데이터 세트에서 최대 30%의 시간적 지터를 줄인다.
- BlazeFace의 회귀 매개변수 오차는 두 눈 사이 간격의 10.4%이며 (MobileNetV2-SSD의 7.4% 대비), 5.3% 지터 지표를 갖는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.