QUICK REVIEW

[论文解读] S$^3$FD: Single Shot Scale-invariant Face Detector

Shifeng Zhang, Xiangyu Zhu|arXiv (Cornell University)|Aug 17, 2017

Face recognition and analysis参考文献 57被引用 33

一句话总结

S$^3$FD 提出了一种单阶段、尺度不变的面部检测器，通过多层锚点、尺度补偿匹配和最大输出背景标记的尺度公平框架，显著提升了小尺寸面部的检测性能。该方法在 WIDER FACE、PASCAL、FDDB 和 AFW 数据集上均达到最先进水平，在 Titan X (Pascal) 上实现 36 FPS 的推理速度。

ABSTRACT

This paper presents a real-time face detector, named Single Shot Scale-invariant Face Detector (S$^3$FD), which performs superiorly on various scales of faces with a single deep neural network, especially for small faces. Specifically, we try to solve the common problem that anchor-based detectors deteriorate dramatically as the objects become smaller. We make contributions in the following three aspects: 1) proposing a scale-equitable face detection framework to handle different scales of faces well. We tile anchors on a wide range of layers to ensure that all scales of faces have enough features for detection. Besides, we design anchor scales based on the effective receptive field and a proposed equal proportion interval principle; 2) improving the recall rate of small faces by a scale compensation anchor matching strategy; 3) reducing the false positive rate of small faces via a max-out background label. As a consequence, our method achieves state-of-the-art detection performance on all the common face detection benchmarks, including the AFW, PASCAL face, FDDB and WIDER FACE datasets, and can run at 36 FPS on a Nvidia Titan X (Pascal) for VGA-resolution images.

研究动机与目标

解决锚点基检测器在目标尺度减小时性能下降的问题，尤其针对小尺寸和中等尺寸面部。
克服因大步长和感受野不匹配导致的小尺寸面部特征表示与锚点匹配的局限性。
通过引入最大输出背景标签策略，减少密集排列的小锚点带来的误报。
通过尺度补偿锚点匹配机制，提升小尺寸和外向面部的召回率。
在保持实时推理速度的同时，在多个基准测试中实现最先进性能。

提出的方法

在多个特征层上铺展锚点，步长范围为 4 到 128 像素，以确保所有面部尺度均具备充分的特征表示。
基于有效感受野分析和等比例区间原则，将锚点尺度设计为 16 至 512 像素，实现尺度分布的均衡。
提出两阶段的尺度补偿锚点匹配策略：首先调整 IoU 阈值，然后通过尺度感知补偿确保所有面部尺度均能匹配到足够数量的锚点。
在最低检测层引入最大输出背景标签，以抑制过多小负样本锚点带来的误报。
采用 VGG16 作为主干网络，结合多尺度特征融合与非极大值抑制（NMS）进行最终框选择。
在 NMS 前应用置信度阈值（0.05）和 Top-K 过滤（400 个框）以加速推理。

实验结果

研究问题

RQ1锚点基检测器为何难以有效检测小尺寸面部？其在特征表示与锚点匹配方面的根本原因是什么？
RQ2如何优化锚点尺度与层位置，以确保所有面部尺度均获得一致的特征覆盖？
RQ3尺度补偿策略是否能提升与离散锚点尺度不匹配的面部的召回率？
RQ4最大输出背景标签在多大程度上可减少密集小锚点带来的误报？
RQ5统一的单阶段检测器是否能在包括 WIDER FACE、FDDB 和 PASCAL 在内的多样化基准上实现最先进性能？

主要发现

在 WIDER FACE 验证集上，S$^3$FD 实现了 0.937（易）、0.924（中）和 0.852（难）的 mAP，测试集上分别为 0.928、0.913 和 0.840。
在 FDDB 数据集上，S$^3$FD 在连续与非连续 ROC 曲线上均优于所有先前方法，展现出对无约束面部变化的强鲁棒性。
在单张 Nvidia Titan X (Pascal) 上，S$^3$FD 对 VGA 分辨率图像实现 36 FPS 的推理速度，证实其具备实时处理能力。
超过 75% 的负样本锚点来自最低层（conv3_3），该问题通过最大输出背景标签得到缓解，显著降低了误报率。
尺度补偿匹配策略显著提升了极小尺寸和外向面部的召回率，这些面部在标准 IoU 匹配下原本匹配到的锚点过少。
基于多层锚点的尺度公平框架确保了所有面部尺度均具备充分的特征表示，有效解决了小尺寸面部特征稀缺的问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。