[논문 리뷰] YOLO5Face: Why Reinventing a Face Detector
본 연구는 얼굴 탐지를 일반 객체 탐지로 다루고 YOLOv5를 적응시켜 YOLO5Face를 만들며 랜드마크 회귀와 다양한 백본을 추가하여 WiderFace에서 최신 성능을 달성한다. 모바일 친화적 모델 포함.
Tremendous progress has been made on face detection in recent years using convolutional neural networks. While many face detectors use designs designated for detecting faces, we treat face detection as a generic object detection task. We implement a face detector based on the YOLOv5 object detector and call it YOLO5Face. We make a few key modifications to the YOLOv5 and optimize it for face detection. These modifications include adding a five-point landmark regression head, using a stem block at the input of the backbone, using smaller-size kernels in the SPP, and adding a P6 output in the PAN block. We design detectors of different model sizes, from an extra-large model to achieve the best performance to a super small model for real-time detection on an embedded or mobile device. Experiment results on the WiderFace dataset show that on VGA images, our face detectors can achieve state-of-the-art performance in almost all the Easy, Medium, and Hard subsets, exceeding the more complex designated face detectors. The code is available at \url{https://github.com/deepcam-cn/yolov5-face}
연구 동기 및 목표
- 얼굴 탐지를 일반 객체 탐지 작업으로 재구성하여 아키텍처를 새로 설계하지 않고 표준 탐지기를 활용한다.
- 다양한 배포 요구에 맞춘 구성요소와 랜드마크 회귀를 갖춘 YOLOv5 기반 얼굴 탐지기 가족을 개발한다.
- 아래의 아키텍처 수정 및 학습 전략을 통해 작은 얼굴과 큰 얼굴 모두의 탐지 성능을 향상시킨다.
- WiderFace 벤치마크 및 교차 도메인 데이터셋에서 성능을 평가하여 하위 집합 전반에 걸쳐 최신 결과를 확립한다.
제안 방법
- Wing loss를 사용한 다섯 점 랜드마크 회귀 헤드를 추가하여 YOLOv5를 YOLO5Face로 재설계한다.
- 일반화 개선 및 계산량 감소를 위해 Focus 계층을 Stem 블록으로 교체한다.
- 작은 얼굴 탐지를 향상시키기 위해 더 작은 커널의 SPP 블록(7x7, 5x5, 3x3)을 사용한다.
- 큰 얼굴 탐지를 강화하기 위해 P6 출력 블록(스트라이드 64)을 추가한다.
- ShuffleNetV2를 기반으로 한 두 개의 경량 백본을 도입하여 임베디드 기기를 위한 울트라 컴팩트 모델을 만든다.
- VGA 해상도 입력으로 학습하고 긴 가장자리를 640으로 축소하며 짧은 가장자리를 최대 SPP 스트라이드와 맞추고, 데이터 증강의 Ablation(상하 반전 제거; Mosaic는 다양화) 및 랜드마크 감독에 대한 실험을 수행한다.
실험 결과
연구 질문
- RQ1전용 얼굴 특화 아키텍처 없이 일반 객체 탐지기 프레임워크를 사용해 얼굴 탐지가 효과적으로 가능할까?
- RQ2랜드마크 회귀, Stem 블록, 더 작은 SPP 커널, P6 헤드와 같은 수정이 WiderFace의 Easy/Medium/Hard에서 mAP를 높일까?
- RQ3모바일 및 임베디드에 초점을 맞춘 백본(ShuffleNetV2)이 계산량을 크게 줄이면서도 경쟁력 있는 정확도를 제공할까?
- RQ4데이터 증강 선택(예: 상하 반전 제거, mosaic)이 얼굴 탐지기의 성능에 어떤 영향을 미칠까?
- RQ5랜드마크 기반 감독 및 정렬이 다운스트림 얼굴 인식 벤치마크를 향상시킬까?
주요 결과
- YOLO5Face는 대형 모델(예: YOLOv5x6)로 WiderFace의 Easy, Medium, Hard 하위집합에서 최첨단 mAP를 달성한다.
- SPP의 더 작은 커널(7x7, 5x5, 3x3)이 Easy, Medium, Hard 전반에서 주목할 만한 mAP 증가를 가져온다(0.9%, 1.49%, 1.41%).
- P6 출력 블록을 추가하면 Easy와 Medium에서 약 1%씩 mAP가 향상되고 Hard에서 소폭 감소한다.
- Stem 블록은 Easy에서 Focus 대비 최대 0.57% 향상(Medium 0.33%, Hard 0.23%)를 가져온다.
- 두 가지 ShuffleNetV2 기반 백본은 초소형 탐지기(YOLOv5n, YOLOv5n0.5)를 가능하게 하여 임베디드 장치에서 경쟁력 있는 성능을 제공한다.
- WiderFace 검증에서 YOLOv5x6-Face는 Easy 96.9%, Medium 96.0%, Hard 91.6%; 테스트에서 각각 95.8%, 94.9%, 90.5%에 도달한다.
- 랜드마크 감독이 있는 Webface에서 얼굴 인식 작업에서 YOLO5Face의 변형이 RetinaFace보다 우수한 성능을 보일 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.