QUICK REVIEW

[논문 리뷰] BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

Valentin Bazarevsky, Yury Kartynnik|arXiv (Cornell University)|2019. 07. 11.

Face recognition and analysis참고 문헌 7인용 수 248

한 줄 요약

BlazeFace는 모바일 GPU 추론에 최적화된 경량 얼굴 탐지기로, GPU 친화적 SSD 유사 앵커 체계와 새로운 매듭 해상도 방법으로 플래그십 기기에서 200–1000+ FPS를 달성합니다. 또한 AR 파이프라인에서 회전 인식 자르기를 위한 6개의 얼굴 키포인트를 제공합니다.

ABSTRACT

We present BlazeFace, a lightweight and well-performing face detector tailored for mobile GPU inference. It runs at a speed of 200-1000+ FPS on flagship devices. This super-realtime performance enables it to be applied to any augmented reality pipeline that requires an accurate facial region of interest as an input for task-specific models, such as 2D/3D facial keypoint or geometry estimation, facial features or expression classification, and face region segmentation. Our contributions include a lightweight feature extraction network inspired by, but distinct from MobileNetV1/V2, a GPU-friendly anchor scheme modified from Single Shot MultiBox Detector (SSD), and an improved tie resolution strategy alternative to non-maximum suppression.

연구 동기 및 목표

AR 파이프라인에 최적화된 모바일 기기를 위한 컴팩트하고 GPU 친화적인 얼굴 탐지기를 개발한다.
높은 얼굴 감지 정확도를 유지하면서 추론 속도를 향상시킨다.
모바일 GPU에 맞춘 아키텍처 조정(앵커, tie-resolution)을 도입하고 비디오 스트림의 지터를 줄인다.
하위 작업 개선을 위해 회전 인식 자르기를 가능하게 하는 6개의 키포인트를 사용한다.

제안 방법

빠른 탐지를 위해 맞춤화된 MobileNetV1/V2에서 영감을 받은 경량 특징 추출기를 설계한다.
8x8 특징 맵에서 픽셀당 6개의 앵커를 갖는 GPU 친화적 앵커 체계를 도입한다.
NMS의 대안으로 tie-resolution 전략을 제안하여 겹쳐진 예측을 안정화한다.
회전 추정을 위해 눈 중앙, 귀 tragions, 입 중앙, 코 끝의 6개 얼굴 키포인트를 생성한다.
앵커 중첩으로 인한 지터를 줄이고 더 매끄러운 시계열 예측을 가능하게 하기 위해 전체 해상도 8x8 특징 맵을 유지한다.

실험 결과

연구 질문

RQ1콤팩트한 CNN 백본과 GPU 친화적 앵커가 모바일 GPU에서 실시간 얼굴 탐지를 제공할 수 있는가?
RQ2밀집한 앵커 상황에서 기존 NMS에 비해 새로운 tie-resolution 방법이 안정성을 향상시키는가?
RQ3모바일 GPU에서 BlazeFace의 정확도와 대기 시간은 MobileNetV2-SSD와 어떻게 비교되는가?
RQ4추가적인 얼굴 키포인트가 회전 인식 자르기를 가능하게 하여 하류 AR 작업을 개선할 수 있는가?

주요 결과

모델	평균 정밀도	추론 시간, ms
MobileNetV2-SSD	97.95%	2.1
Ours	98.61%	0.6

BlazeFace는 iPhone XS에서 TensorFlow Lite GPU를 사용하여 FP16로 전면 얼굴에 대해 98.61% 평균 정밀도와 0.6 ms 추론 시간을 달성한다.
MobileNetV2-SSD는 동일 프레임워크에서 97.95% AP와 2.1 ms 추론 시간을 달성한다.
기기 전반에 걸쳐 BlazeFace는 추론 속도에서 MobileNetV2-SSD보다 현저히 우수하다(예: iPhone XS: 0.6 ms 대 2.1 ms).
제안된 tie-resolution 전략은 전면 카메라 데이터 세트에서 최대 40%, 후면 카메라 데이터 세트에서 최대 30%의 시간적 지터를 줄인다.
BlazeFace의 회귀 매개변수 오차는 두 눈 사이 간격의 10.4%이며 (MobileNetV2-SSD의 7.4% 대비), 5.3% 지터 지표를 갖는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.