[论文解读] PyramidBox: A Context-assisted Single Shot Face Detector
PyramidBox 引入基于上下文的单阶段人脸检测,使用 PyramidAnchors、LFPN 和上下文感知预测来提升困难人脸的检测,在 FDDB 和 WIDER FACE 上达到当前最先进的结果。
Face detection has been well studied for many years and one of remaining challenges is to detect small, blurred and partially occluded faces in uncontrolled environment. This paper proposes a novel context-assisted single shot face detector, named \emph{PyramidBox} to handle the hard face detection problem. Observing the importance of the context, we improve the utilization of contextual information in the following three aspects. First, we design a novel context anchor to supervise high-level contextual feature learning by a semi-supervised method, which we call it PyramidAnchors. Second, we propose the Low-level Feature Pyramid Network to combine adequate high-level context semantic feature and Low-level facial feature together, which also allows the PyramidBox to predict faces of all scales in a single shot. Third, we introduce a context-sensitive structure to increase the capacity of prediction network to improve the final accuracy of output. In addition, we use the method of Data-anchor-sampling to augment the training samples across different scales, which increases the diversity of training data for smaller faces. By exploiting the value of context, PyramidBox achieves superior performance among the state-of-the-art over the two common face detection benchmarks, FDDB and WIDER FACE. Our code is available in PaddlePaddle: \href{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}{\url{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}}.
研究动机与目标
- 在无约束环境中推动对小尺度、模糊和遮挡人脸的鲁棒检测。
- 利用上下文信息(头部、肩部、身体)来辅助人脸定位与分类。
- 开发一种融合低级高分辨率特征和高级语义特征以实现多尺度检测的架构。
- 引入半监督的 PyramidAnchors,在无需额外标注的情况下监督上下文特征学习。
- 通过尺度感知的数据增强来扩充训练数据,从而提升小尺度人脸的多样性。
提出的方法
- 引入 PyramidAnchors,在多尺度上监督人脸、头部和身体的上下文特征学习。
- 开发低级特征金字塔网络(LFPN),将高级上下文与低级脸部特征融合,用于单阶段的多尺度检测。
- 设计一个带有宽深网络和 max-in-out 层的上下文敏感预测模块(CPM),以提升定位和分类。
- 结合 Data-anchor-sampling 重新塑形训练数据分布,增加小脸多样性。
- 提出 PyramidBox 损失函数,在金字塔锚点上联合监督人脸、头部和身体的预测。
实验结果
研究问题
- RQ1如何利用人脸周围的上下文信息(头部、肩膀、身体)来提升对困难、小尺寸或被遮挡人脸的检测?
- RQ2将低级特征金字塔网络(LFPN)整合是否比仅使用自顶向下的高级特征在小脸检测上有更好表现?
- RQ3PyramidAnchors 和半监督上下文标注对简单、一般、困难子集的检测精度有何影响?
- RQ4带有 max-in-out 的上下文敏感预测模块是否能同时提升定位和分类精度?
- RQ5数据锚点采样是否能够有效实现训练数据多样化,从而提升小脸检测?
主要发现
- 从中间层(conv7)开始的 LFPN 相较基线在 hard 子集上获得更高的 mAP(86.1),显示了 LFPN 对小脸的有效性。
- 数据锚点采样在 easy、medium、hard 子集的 mAP 上分别提高了 0.4–0.6 个百分点,在 hard 场景中尤为明显。
- 带有多层金字塔的 PyramidAnchors(人脸、头部、身体)相对于基线有显著提升(hard mAP 从 84.2 提升到 85.1)。
- 上下文敏感预测模块(CPM)在 easy/medium/hard mAP 上优于 DSSD 和 SSH 风格模块,在一次比较中分别实现 95.6/94.5/88.5。
- Max-in-out 在各子集上贡献额外增益(约 0.1–0.3 mAP 点)。
- 将所有提出的组件结合时,PyramidBox 在 WIDER FACE 验证集/测试集的 easy(95.5–96.1)、medium(94.7–95.0)和 hard(88.8–88.9)子集上实现了显著的 mAP 提升,接近最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。