[论文解读] Face Detection through Scale-Friendly Deep Convolutional Networks
ScaleFace 将尺度变异检测器整合到单一主干网络中,在不使用图像金字塔的情况下检测跨越广泛尺度范围的人脸, achieves strong accuracy with practical speed. It partitions scales, assigns specialized network structures, and shares representations for end-to-end training.
In this paper, we share our experience in designing a convolutional network-based face detector that could handle faces of an extremely wide range of scales. We show that faces with different scales can be modeled through a specialized set of deep convolutional networks with different structures. These detectors can be seamlessly integrated into a single unified network that can be trained end-to-end. In contrast to existing deep models that are designed for wide scale range, our network does not require an image pyramid input and the model is of modest complexity. Our network, dubbed ScaleFace, achieves promising performance on WIDER FACE and FDDB datasets with practical runtime speed. Specifically, our method achieves 76.4 average precision on the challenging WIDER FACE dataset and 96% recall rate on the FDDB dataset with 7 frames per second (fps) for 900 * 1300 input image.
研究动机与目标
- 解决现实场景中检测极为广泛尺度的人脸的挑战。
- 提出一种尺度友好型检测器架构,将尺度变异网络集成到单一主干网络中。
- 确定如何划分尺度范围并分配网络结构以优化检测性能。
- 展示端到端训练与共享表示在精度与效率方面的可实现性。
提出的方法
- 将大尺度范围分割为若干子区间,每个区间由具备谨慎设计深度和空间池化的专门网络建模。
- 将尺度变异检测器集成到单一主干网络(类似 ResNet-50)以共享表示。
- 在多尺度特征上使用 ROI 池化,对人脸进行分类和定位,而无需图像金字塔推理。
- 在离散的尺度区间上训练检测器,使用尺度合适的 ROI 和真实框;应用在线难负样本挖掘。
- 从尺度变异检测器聚合预测并以非极大值抑制形成最终检测结果。
- 通过降低主干滤波器数量压缩模型,以在最小 AP 损失的前提下提升运行时性能。
实验结果
研究问题
- RQ1将人脸检测的尺度范围划分为最佳子区间以最大化精度和速度的方法是什么?
- RQ2在单一主干上共享尺度变异检测器是否能在宽尺度人脸检测中超越单尺度或简单集成?
- RQ3在特征图上投影 ROI 的尺度与 ROI 池化模板之间的对齐对检测性能有何影响?
- RQ4在将多个尺度特定检测器合并到一个统一网络时,精度与运行时之间存在哪些权衡?
主要发现
- 针对目标尺度,对准 ROI 池化并与目标尺度对齐的专用网络结构有助于提高手脸检测的效果;不当的 ROI 映射会降低性能。
- 依据外观变化将尺度分成 3–4 组并分配合适的池化步幅,在 WIDER FACE 的 Easy/Medium/Hard 设置上显著提升 AP。
- 联合优化、跨尺度变异检测器的共享表示在 WIDER FACE 的 AP 上优于 naïve 集成。
- ScaleFace 在 WIDER FACE Hard 上达到 76.4 AP,运行速率为 4 fps;FDDB 的Recall 在 200 FP 处为 94.55%,在 2000 FP 处为 96%。
- 一个压缩版 ScaleFace-Fast 可达到 75.5 AP,处理 900×1300 图像仅 160 ms,比 HR 快十倍且 AP 损失很小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。