[论文解读] Sample and Computation Redistribution for Efficient Face Detection
本文提出 Sample Redistribution (SR) 和 Computation Redistribution (CR) 以提高 VGA 分辨率人脸检测的效率与准确性,在 SCRFD 模型上实现了最先进的性能–效率权衡。
Although tremendous strides have been made in uncontrolled face detection, efficient face detection with a low computation cost as well as high precision remains an open challenge. In this paper, we point out that training data sampling and computation distribution strategies are the keys to efficient and accurate face detection. Motivated by these observations, we introduce two simple but effective methods (1) Sample Redistribution (SR), which augments training samples for the most needed stages, based on the statistics of benchmark datasets; and (2) Computation Redistribution (CR), which reallocates the computation between the backbone, neck and head of the model, based on a meticulously defined search methodology. Extensive experiments conducted on WIDER FACE demonstrate the state-of-the-art efficiency-accuracy trade-off for the proposed \scrfd family across a wide range of compute regimes. In particular, \scrfdf{34} outperforms the best competitor, TinaFace, by $3.86\%$ (AP at hard set) while being more than \emph{3$ imes$ faster} on GPUs with VGA-resolution images. We also release our code to facilitate future research.
研究动机与目标
- 在有限计算资源下,推动 VGA 分辨率下的人脸检测效率。
- 提出 SR 以增加浅层检测阶段的训练样本。
- 提出一个两步 CR 策略,在 backbone、neck 和 head 上优化计算。
- 在 WIDER FACE 上展示在不同计算预算下的改进的准确性–效率权衡。
提出的方法
- 通过大裁剪引入 Sample Redistribution (SR),以增加小尺度人脸的训练样本,特别是对 stride-8 特征。
- 基于固定 FLOP 预算,设计一个简化的 backbone、neck 和 head 的计算搜索空间。
- 执行两步计算再分布: (SCRFD 1) 仅 backbone 的优化,(SCRFD 2) 在 backbone 指导下对 backbone+neck+head 的优化。
- 使用经验自举方法来估计有前景的计算分布并缩小搜索空间。
- 从头开始训练模型,进行 VGA-only 测试,并在 WIDER FACE 上与最先进的检测器进行比较。
实验结果
研究问题
- RQ1如何重新分配训练数据采样以提高 VGA 分辨率下对小尺度人脸的检测?
- RQ2在固定 FLOP 预算下,应该如何在 backbone、neck 和 head 之间重新分配计算以最大化准确性?
- RQ3两步 CR 策略对人脸检测的性能和效率有何影响?
主要发现
- SR 显著增加 stride-8 的正样本,使硬集 AP 提升(例如基线下硬集 AP 从 67.32 提升到 74.47)。
- 两步 CR(先仅 backbone 再全检测器)比单步重新分配获得更高的 AP(例如 CR@two-step 为 71.37,达 70.98)。
- SCRFD-34GF 在效率–准确度方面达到最先进的水平,在 hard 上比 TinaFace 高 3.86 AP,同时在 VGA 分辨率下运行速度超过 3 倍。
- SCRFD 模型在各个预算区间(0.5–34 GF)提供显著的效率提升,参数量也较优(例如 SCRFD-34GF:9.80M)。
- 在 VGA 测试下,SCRFD-2.5GF 在计算量极低的情况下达到有竞争力的精度(~2.5 GF)和推理时间。
- 这两种再分配策略在多种计算预算下相互补充且具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。