[论文解读] EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse
EXTD 提供一个极其紧凑的多尺度人脸检测器,重复利用一个轻量级骨干网络以迭代方式生成多尺度特征图,从而在参数显著更少的情况下达到与大型检测器相当的准确度。
In this paper, we propose a new multi-scale face detector having an extremely tiny number of parameters (EXTD),less than 0.1 million, as well as achieving comparable performance to deep heavy detectors. While existing multi-scale face detectors extract feature maps with different scales from a single backbone network, our method generates the feature maps by iteratively reusing a shared lightweight and shallow backbone network. This iterative sharing of the backbone network significantly reduces the number of parameters, and also provides the abstract image semantics captured from the higher stage of the network layers to the lower-level feature map. The proposed idea is employed by various model architectures and evaluated by extensive experiments. From the experiments from WIDER FACE dataset, we show that the proposed face detector can handle faces with various scale and conditions, and achieved comparable performance to the more massive face detectors that few hundreds and tens times heavier in model size and floating point operations.
研究动机与目标
- 阐明适用于移动/CPU 环境的超小型人脸检测器的需求。
- 提出迭代式骨干共享以在不增加参数的情况下生成多尺度特征图。
- 证明重复使用一个轻量级骨干在 WIDER FACE 上仍能获得具有竞争力的准确度,尽管参数显著减少。
- 展示迭代共享在 SSD 和 FPN 架构中的适用性。
提出的方法
- 引入迭代特征图生成,其中 f_i = F(f_{i-1}),f_0 = E(x)。
- 构建两种架构:SSD 风格(直接使用 f_i)和 FPN 风格(通过上采样生成 g_i 并加入跨层跳连)。
- 设计一个具有翻转残差块的轻量骨干,总参数小于 <0.1M,通道数为 {32,48,64}。
- 在每个特征图上附加单个 3x3 分类和回归头;对第一个头在小脸假阳性上应用 Maxout。
- 使用多任务损失 L = (λ/N_cls) sum l_c(c_j,c*_j) + (1/N_reg) sum c*_j l_r(r_j,r*_j) 进行训练,采用在线硬负样本挖掘和尺度补偿的锚框匹配。
- 使用数据增强并从头开始训练;在 WIDER FACE 上按 Easy/Medium/Hard 的 mAP 进行评估。
实验结果
研究问题
- RQ1迭代式骨干共享在减小参数数量的同时,是否能在多尺度人脸检测上保持检测性能?
- RQ2迭代特征图生成如何影响小脸检测中较低层特征图的语义信息?
- RQ3在极端参数约束下,SSD 风格与 FPN 风格架构之间的权衡是什么?
主要发现
| 模型 | 骨干网络 | # Params | # Madds (G) | Easy (mAP) | WIDER FACE Medium (mAP) | Hard (mAP) |
|---|---|---|---|---|---|---|
| PyramidBox | VGG-16 | 57 M | 129 | 0.961 | 0.950 | 0.887 |
| DSFD | ResNet101 | 399 M | - | 0.963 | 0.954 | 0.901 |
| DSFD-ResNet152 | ResNet152 | 459 M | - | 0.966 | 0.957 | 0.904 |
| S3FD | VGG-16 | 22 M | 128 | 0.942 | 0.930 | 0.887 |
| S3FD - Scratch | VGG-16 | 22 M | 128 | 0.931 | 0.920 | 0.846 |
| S3FD + MobileFaceNet | MobileFaceNet | 1.2 M | 12.7 | 0.881 | 0.859 | 0.741 |
| EXTD-FPN-32-PReLU | - | 0.063 M | 4.52 | 0.896 | 0.885 | 0.825 |
| EXTD-FPN-48-PReLU | - | 0.100 M | 6.67 | 0.913 | 0.904 | 0.847 |
| EXTD-FPN-64-PReLU | - | 0.160 M | 11.2 | 0.921/0.912 | 0.911/0.903 | 0.856/0.850 |
- EXTD 变体在参数量和 Madds 方面比重量级检测器如 S3FD 低了数量级,但达到相近的 mAP。
- EXTD-FPN-64-PReLU 在 WIDER FACE 上 Easy 0.921, Medium 0.911, Hard 0.856 的 mAP;成本为 0.16M 参数和 11.2 Madds。
- 在小脸检测中,基于 FPN 的架构在各种通道宽度下始终优于基于 SSD 的架构。
- 将特征通道宽度从 32 提高到 64,在 SSD 和 FPN 变体上均显著提升 Easy/Medium/Hard 的 mAP。
- 循环式骨干共享在无需额外参数的情况下,在较低层的特征图中提供更丰富的语义信息,从而提升小脸检测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。