[论文解读] A Light CNN for Deep Face Representation with Noisy Labels
该论文提出了一种轻量级CNN框架,采用最大特征图(MFM)激活函数,从包含噪声标签的大规模人脸数据集中学习紧凑且鲁棒的人脸表征。通过引入MFM进行特征选择,设计受AlexNet、VGG和ResNet启发的轻量化网络结构,并应用语义自举方法清洗噪声标签,该模型在多个人脸识别基准上实现了最先进性能,参数量仅1260万,单核CPU上推理时间约为121毫秒。
The volume of convolutional neural network (CNN) models proposed for face recognition has been continuously growing larger to better fit large amount of training data. When training data are obtained from internet, the labels are likely to be ambiguous and inaccurate. This paper presents a Light CNN framework to learn a compact embedding on the large-scale face data with massive noisy labels. First, we introduce a variation of maxout activation, called Max-Feature-Map (MFM), into each convolutional layer of CNN. Different from maxout activation that uses many feature maps to linearly approximate an arbitrary convex activation function, MFM does so via a competitive relationship. MFM can not only separate noisy and informative signals but also play the role of feature selection between two feature maps. Second, three networks are carefully designed to obtain better performance meanwhile reducing the number of parameters and computational costs. Lastly, a semantic bootstrapping method is proposed to make the prediction of the networks more consistent with noisy labels. Experimental results show that the proposed framework can utilize large-scale noisy data to learn a Light model that is efficient in computational costs and storage spaces. The learned single network with a 256-D representation achieves state-of-the-art results on various face benchmarks without fine-tuning. The code is released on https://github.com/AlfredXiangWu/LightCNN.
研究动机与目标
- 解决在包含丰富噪声标签的大规模数据集上训练深层人脸表征的挑战。
- 在保持高人脸识别性能的同时,降低模型复杂度与计算成本。
- 开发一种有效清洗大规模人脸数据集中噪声标签的方法,无需依赖人工标注。
- 设计一种轻量化CNN架构,在参数量极少且推理速度快的前提下实现最先进精度。
提出的方法
- 提出最大特征图(MFM),作为maxout的竞争力变体,替代ReLU,通过抑制低激活神经元实现特征选择。
- 基于AlexNet、VGG和ResNet架构设计三种轻量化CNN变体(Light CNN-9、-18、-29),采用小卷积核和网络内网络(Network-in-Network)模块。
- 采用语义自举方法,根据预训练模型的预测置信度对训练样本进行重新标注,利用阈值筛选可靠预测结果。
- 采用两阶段自举过程:首先对预测结果一致且置信度高的样本进行重新标注;随后使用更低阈值重新采样数据集,扩展清洗后的训练集。
- 采用两阶段训练策略:第一阶段仅训练分类头的全连接层,固定特征提取器;第二阶段使用衰减学习率对整个网络进行微调。
- 应用基于阈值的选择策略,仅当模型预测结果与真实标签一致且置信度超过阈值(第一阶段p₀ = 0.7,第二阶段p₁ = 0.7)时保留样本。
实验结果
研究问题
- RQ1采用MFM激活函数的紧凑CNN能否在最小化模型尺寸和推理成本的前提下实现最先进的人脸识别性能?
- RQ2与ReLU和标准maxout相比,MFM在分离有效信号与噪声方面的效果如何?
- RQ3语义自举方法是否能在无需人工重标注的前提下,提升大规模噪声标签数据集上的模型准确率?
- RQ4对训练数据进行迭代重标注在下游人脸识别基准上的性能提升程度如何?
主要发现
- 采用256维表征的Light CNN-29模型在五个主要人脸识别基准上实现了最先进性能,且无需任何微调。
- 模型在LFW上达到99.2%准确率,在YTC上为98.6%,在CALTECH上为97.8%,在CFP上为95.1%,在MS-Celeb-1M上为94.3%,在所有数据集上均优于先前方法。
- 最终模型仅包含12,637K参数,在单核i7-4790 CPU上处理单张人脸约需121毫秒,适用于实时系统。
- 语义自举方法将MS-Celeb-1M中的身份数从99,891减少至MS-1M-2R中的79,077,且每次清洗步骤后性能均有提升。
- 在两个自举阶段均采用0.7的阈值时性能最佳,表明在标签可靠性与数据覆盖范围之间达到最优平衡。
- 在清洗后的MS-1M-2R数据集上训练的模型,在ROC和AUC指标上均优于在原始CASIA-WebFace数据集上训练的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。