QUICK REVIEW

[论文解读] Feature Agglomeration Networks for Single Stage Face Detection

Jialiang Zhang, Xiongwei Wu|arXiv (Cornell University)|Dec 3, 2017

Face recognition and analysis参考文献 28被引用 25

一句话总结

本文提出特征聚合网络（FANet），一种新颖的单阶段人脸检测器，通过分层的“聚合连接”模块将高层语义特征聚合到低层特征图中，从而增强多尺度特征表示。该方法在WIDER FACE数据集的hard、medium和easy子集上分别实现了95.6、94.7和89.5的mAP，同时在VGA分辨率图像上保持了35.6 FPS的实时推理速度。

ABSTRACT

Recent years have witnessed promising results of face detection using deep learning. Despite making remarkable progresses, face detection in the wild remains an open research challenge especially when detecting faces at vastly different scales and characteristics. In this paper, we propose a novel simple yet effective framework of "Feature Agglomeration Networks" (FANet) to build a new single stage face detector, which not only achieves state-of-the-art performance but also runs efficiently. As inspired by Feature Pyramid Networks (FPN), the key idea of our framework is to exploit inherent multi-scale features of a single convolutional neural network by aggregating higher-level semantic feature maps of different scales as contextual cues to augment lower-level feature maps via a hierarchical agglomeration manner at marginal extra computation cost. We further propose a Hierarchical Loss to effectively train the FANet model. We evaluate the proposed FANet detector on several public face detection benchmarks, including PASCAL face, FDDB and WIDER FACE datasets and achieved state-of-the-art results. Our detector can run in real time for VGA-resolution images on GPU.

研究动机与目标

为解决在真实场景中检测尺度差异极大的人脸（尤其是小人脸）的挑战。
通过有效融合富含语义上下文的多尺度特征，提升单阶段人脸检测器的特征表示能力。
开发一种训练方案，实现多尺度检测的稳定且高效的端到端学习。
在不牺牲推理速度的前提下实现SOTA性能，支持实时部署。

提出的方法

引入“聚合连接”模块，分层地将高层语义特征融合到低层高分辨率特征图中，以提升上下文理解能力。
构建新型分层特征金字塔，增强所有尺度下的语义丰富度，与FPN中使用的跳跃连接不同。
采用分层损失（HL）通过在多个层级监督预测结果，引导端到端训练，提升特征判别能力。
在深层主干网络（如VGG16）上采用单次推理机制，在利用多尺度特征的同时保持实时推理速度。
在推理阶段应用多尺度测试，进一步提升在困难样本（尤其是小人脸）上的性能。
使用三级分层损失进行端到端训练，稳定训练过程并增强跨尺度的特征学习能力。

实验结果

研究问题

RQ1一种简单但有效的特征聚合机制是否能提升单阶段人脸检测器在多样化人脸尺度下的性能？
RQ2利用深层特征中的语义线索进行分层特征聚合，如何提升小人脸检测的准确性？
RQ3如分层损失这样的新型损失函数能否提升多尺度人脸检测中的训练稳定性和特征判别能力？
RQ4所提出的FANet框架在WIDER FACE、FDDB和PASCAL FACE等多样化基准上的泛化能力如何？

主要发现

FANet在WIDER FACE hard子集上实现了95.6%的SOTA mAP，超越了S3FD和Face R-FCN等先前方法。
在WIDER FACE验证集上，FANet在medium子集上达到94.7% mAP，在hard子集上达到89.5% mAP，展现出对尺度变化的强鲁棒性。
在FDDB基准上，FANet在离散与连续ROC曲线上均达到SOTA性能，表明其具有优越的泛化能力与检测可靠性。
在PASCAL FACE数据集上，FANet实现了98.78%的mAP，优于S3FD（98.45%）及其他先前方法。
在NVIDIA GTX 1080Ti GPU上，FANet在VGA分辨率图像上的推理速度达到35.6 FPS，证实其具备实时推理能力。
多尺度测试进一步提升了性能，尤其在困难样本上表现显著，最终结果相比单尺度推理有显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。