[论文解读] Finding Tiny Faces
本文提出了一种针对极小人脸的尺度特定检测方法,通过使用多任务特征层次结构为不同尺度训练独立检测器,并利用大感受野模板获取上下文信息。该方法在 WIDER FACE 数据集上实现了 82% 的平均精度,相比之前的方法将误差降低了两倍,达到当前最先进水平。
Though tremendous strides have been made in object recognition, one of the remaining open challenges is detecting small objects. We explore three aspects of the problem in the context of finding small faces: the role of scale invariance, image resolution, and contextual reasoning. While most recognition approaches aim to be scale-invariant, the cues for recognizing a 3px tall face are fundamentally different than those for recognizing a 300px tall face. We take a different approach and train separate detectors for different scales. To maintain efficiency, detectors are trained in a multi-task fashion: they make use of features extracted from multiple layers of single (deep) feature hierarchy. While training detectors for large objects is straightforward, the crucial challenge remains training detectors for small objects. We show that context is crucial, and define templates that make use of massively-large receptive fields (where 99% of the template extends beyond the object of interest). Finally, we explore the role of scale in pre-trained deep networks, providing ways to extrapolate networks tuned for limited scales to rather extreme ranges. We demonstrate state-of-the-art results on massively-benchmarked face datasets (FDDB and WIDER FACE). In particular, when compared to prior art on WIDER FACE, our results reduce error by a factor of 2 (our models produce an AP of 82% while prior art ranges from 29-64%).
研究动机与目标
- 为解决在目标识别中检测极小人脸(例如 3px 高)的挑战,此时尺度不变性因视觉线索的根本差异而失效。
- 通过超越尺度不变模型,转而为每个尺度训练专用检测器,提升极小人脸的检测精度。
- 通过使用感受野极大的模板进行上下文推理,提升小目标检测性能,其中 99% 的感受野位于目标之外。
- 实现预训练深度网络在极端尺度范围内的外推,提升极小目标检测的泛化能力。
提出的方法
- 为不同尺度训练独立检测器,而非依赖尺度不变模型,承认 3px 和 300px 人脸的视觉线索存在根本性差异。
- 采用多任务学习框架,使检测器共享来自单一深度特征层次结构多个层级提取的特征,以保持效率。
- 设计感受野极大的模板——其中 99% 的感受野位于目标之外——以捕捉对极小人脸检测至关重要的上下文信息。
- 利用预训练深度网络,并提出方法将其外推至广泛尺度范围,提升在极端小目标检测上的性能。
- 优化检测流程,在保持高效率的同时,实现在基准数据集上的最先进精度。
实验结果
研究问题
- RQ1极小人脸(如 3px 高)的视觉线索与较大人脸有何不同?尺度不变模型能否充分捕捉这些差异?
- RQ2与依赖尺度不变性相比,为每个尺度训练独立检测器是否能显著提升极小人脸的检测性能?
- RQ3使用大感受野模板进行上下文推理在多大程度上能提升极小人脸的检测效果?
- RQ4预训练深度网络能否被有效外推至极端尺度范围,以增强极小目标检测?
- RQ5分辨率和特征层次深度对检测最小尺度人脸的影响如何?
主要发现
- 所提方法在 WIDER FACE 数据集上实现 82% 的平均精度,相比之前最先进方法误差降低两倍。
- 使用尺度特定检测器优于尺度不变方法,尤其在 3px 高的人脸检测中表现更优,原因在于不同尺度下视觉线索存在显著差异。
- 利用 99% 感受野位于目标之外的模板进行上下文推理,显著提升了极小人脸的检测性能。
- 多任务特征层次结构实现了尺度特定检测器的高效训练,同时在不同尺度间共享深层特征。
- 该方法成功将预训练深度网络外推至广泛尺度范围,显著提升了极端小目标检测的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。