Skip to main content
QUICK REVIEW

[论文解读] YOLO5Face: Why Reinventing a Face Detector

Delong Qi, Weijun Tan|arXiv (Cornell University)|May 27, 2021
Face recognition and analysis参考文献 47被引用 39
一句话总结

本文将人脸检测视为通用对象检测,并改造 YOLOv5 以创建 YOLO5Face,加入关键点回归和多种主干网络,以在 WiderFace 上实现最先进的性能,包括适用于移动端的模型。

ABSTRACT

Tremendous progress has been made on face detection in recent years using convolutional neural networks. While many face detectors use designs designated for detecting faces, we treat face detection as a generic object detection task. We implement a face detector based on the YOLOv5 object detector and call it YOLO5Face. We make a few key modifications to the YOLOv5 and optimize it for face detection. These modifications include adding a five-point landmark regression head, using a stem block at the input of the backbone, using smaller-size kernels in the SPP, and adding a P6 output in the PAN block. We design detectors of different model sizes, from an extra-large model to achieve the best performance to a super small model for real-time detection on an embedded or mobile device. Experiment results on the WiderFace dataset show that on VGA images, our face detectors can achieve state-of-the-art performance in almost all the Easy, Medium, and Hard subsets, exceeding the more complex designated face detectors. The code is available at \url{https://github.com/deepcam-cn/yolov5-face}

研究动机与目标

  • 将人脸检测重新框定为通用对象检测任务,以利用现有的标准检测器而无需重新设计架构。
  • 开发基于 YOLOv5 的人脸检测器家族,具备关键点回归和面向不同部署需求的定制组件。
  • 通过架构修改和训练策略提升对小脸和大脸的检测能力。
  • 在 WiderFace 基准及跨领域数据集上评估性能,以在各子集上确立最先进的结果。

提出的方法

  • 通过添加一个五点关键点回归头并使用 Wing loss,将 YOLOv5 重新设计为 YOLO5Face。
  • 用 Stem 块替换 Focus 层,以提高泛化能力并降低计算量。
  • 使用更小核的 SPP 块(7x7、5x5、3x3)以提升对小脸的检测。
  • 增加一个 P6 输出块(步幅 64)以提高对大脸的检测。
  • 引入两种基于 ShuffleNetV2 的轻量级主干网络,打造适用于嵌入式设备的超紧凑模型。
  • 使用 VGA 分辨率输入进行训练,并将长边缩放至 640,与最大的 SPP 步幅对齐短边;对数据增强进行消融研究(不使用上下翻转; Mosaic 变体多样化)以及对关键点监督。

实验结果

研究问题

  • RQ1在不使用专门的人脸特定架构的情况下,是否能使用通用对象检测框架有效实现人脸检测?
  • RQ2像关键点回归、Stem 块、较小的 SPP 核以及 P6 头这样的修改,是否能在 WiderFace 的 Easy/Medium/Hard 上提升 mAP?
  • RQ3面向移动和嵌入式的主干网络(ShuffleNetV2)是否在显著降低计算量的同时提供具有竞争力的精度?
  • RQ4数据增强选择(如去除上下翻转、 Mosaic)如何影响人脸检测器的性能?
  • RQ5基于关键点的监督和对齐是否能提升后续的人脸识别基准?

主要发现

  • YOLO5Face 在 WiderFace 的 Easy、Medium、Hard 子集上,使用大型模型(如 YOLOv5x6)达到最先进的 mAP。
  • 在 SPP 中使用更小的核(7x7、5x5、3x3)在 Easy、Medium、Hard 上获得显著的 mAP 增益(0.9%、1.49%、1.41%)。
  • 增加 P6 输出块在 Easy 和 Medium 上提升 mAP(约各 1%),Hard 略有下降。
  • Stem 块在 Easy 上比 Focus 提升多达 0.57%(Medium 0.33%,Hard 0.23%)。
  • 两种基于 ShuffleNetV2 的主干网络实现超紧凑的检测器(YOLOv5n、YOLOv5n0.5),在嵌入式设备上具备竞争力的性能。
  • 在 WiderFace 验证集上,YOLOv5x6-Face 分别达到 Easy 96.9%、Medium 96.0%、Hard 91.6%;在测试集为 95.8%、94.9%、90.5%。
  • 在 Webface 上,带关键点监督的 YOLO5Face 变体在人脸识别任务中可超过 RetinaFace。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。