[论文解读] RetinaFace: Single-stage Dense Face Localisation in the Wild
RetinaFace 引入了一种一步密集人脸定位检测器,能够联合预测人脸分数、框、五个面部特征点,以及密集的3D脸部信息,在 WIDER FACE hard 上达到最先进的结果,并有助于提升人脸识别基准。
Though tremendous strides have been made in uncontrolled face detection, accurate and efficient face localisation in the wild remains an open challenge. This paper presents a robust single-stage face detector, named RetinaFace, which performs pixel-wise face localisation on various scales of faces by taking advantages of joint extra-supervised and self-supervised multi-task learning. Specifically, We make contributions in the following five aspects: (1) We manually annotate five facial landmarks on the WIDER FACE dataset and observe significant improvement in hard face detection with the assistance of this extra supervision signal. (2) We further add a self-supervised mesh decoder branch for predicting a pixel-wise 3D shape face information in parallel with the existing supervised branches. (3) On the WIDER FACE hard test set, RetinaFace outperforms the state of the art average precision (AP) by 1.1% (achieving AP equal to 91.4%). (4) On the IJB-C test set, RetinaFace enables state of the art methods (ArcFace) to improve their results in face verification (TAR=89.59% for FAR=1e-6). (5) By employing light-weight backbone networks, RetinaFace can run real-time on a single CPU core for a VGA-resolution image. Extra annotations and code have been made available at: https://github.com/deepinsight/insightface/tree/master/RetinaFace.
研究动机与目标
- 在野外跨大尺度和遮挡条件下,实现鲁棒、高效的人脸定位。
- 提出一种单阶段密集检测器,利用额外监督(面部特征点)和自监督(密集3D网格)信号。
- 展示联合多任务学习提升检测准确性和下游人脸识别。
- 提供一种轻量级、可在CPU和移动设备部署的实时选项。
- 发布注释和代码以促进进一步研究。
提出的方法
- 使用带有特征金字塔(P2–P6)的单阶段检测器进行多尺度人脸定位。
- 增加一个额外监督分支,预测五个面部特征点,以及一个密集回归分支,预测像素级3D人脸形状。
- 结合基于图卷积的密集回归网解码器和一个具有像素级回归损失(L_pixel)的可微分3D渲染器。
- 对每个锚点优化一个多任务损失,综合分类、边框回归、特征点回归和密集像素级回归。
- 在上下文模块中使用可变形卷积,并采用基于锚的训练和OHEM以应对类别不平衡。
- 使用轻量级骨干网络(如 MobileNet-0.25)实现实时推理,并提供适用于CPU/GPU的可扩展选项。
实验结果
研究问题
- RQ1额外的面部特征点监督是否能在单阶段密集检测器中改善困难人脸检测?
- RQ2增加自监督的密集3D网格回归分支是否提升像素级人脸定位和整体检测精度?
- RQ3联合特征点与密集回归对 WIDER FACE 子集的人脸检测性能有何影响?
- RQ4当用于检测和对齐时,RetinaFace 如何影响下游人脸识别?
- RQ5在 CPU 和移动硬件上,RetinaFace 的实时性能特征是什么?
主要发现
- 在 WIDER FACE hard 上,RetinaFace 达到 AP 91.4%,超越前一项状态-of-the-art 1.1 个百分点。
- 在 IJB-C,RetinaFace 将 ArcFace 验证提升到 FAR 1e-6 下的 TAR 89.59%。
- 使用 MobileNet-0.25 的轻量级 RetinaFace 在 VGA 图像 CPU 实时速度为 60 FPS,在 640×480 的 ARM 上为 16 FPS。
- 五个面部特征点显著提升 hard 子集的 AP 和 WIDER FACE 的 mAP(特征点分支 + 0.775% mAP 增益)。
- 密集回归单独可能有助于 Easy/Medium,但对 Hard 可能略有不利;与特征点联合学习可带来进一步提升。
- 密集3D回归以自监督方式训练,并可与有监督的密集方法竞争,显示对检测和对齐有益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。