[论文解读] Do We Really Need to Collect Millions of Faces for Effective Face Recognition?
本文提出一种特定领域的数据增强方法,通过现有面部数据集合成多样的面部变化——姿态、形状和表情,从而消除对收集数百万张真实图像的需求。通过在合成增强数据上进行训练,该方法在LFW、IJB-A和CS2基准测试中实现了最先进的人脸识别性能,仅使用49.5万张原始图像即达到与在2亿张真实图像上训练的模型相当的性能。
Face recognition capabilities have recently made extraordinary leaps. Though this progress is at least partially due to ballooning training set sizes -- huge numbers of face images downloaded and labeled for identity -- it is not clear if the formidable task of collecting so many images is truly necessary. We propose a far more accessible means of increasing training data sizes for face recognition systems. Rather than manually harvesting and labeling more faces, we simply synthesize them. We describe novel methods of enriching an existing dataset with important facial appearance variations by manipulating the faces it contains. We further apply this synthesis approach when matching query images represented using a standard convolutional neural network. The effect of training and testing with synthesized images is extensively tested on the LFW and IJB-A (verification and identification) benchmarks and Janus CS2. The performances obtained by our approach match state of the art results reported by systems trained on millions of downloaded images.
研究动机与目标
- 探究为实现高性能人脸识别而收集数百万张真实人脸图像是否真正必要。
- 解决在训练数据中获取充分类内面部变化(如姿态、表情、形状)的挑战。
- 提出一种特定领域的数据增强方法,从现有数据集中生成逼真的面部变化。
- 开发一种匹配流程,可在推理时应用相同的合成技术,以实现对跨姿态识别的鲁棒性。
- 证明合成数据可达到或超越在大规模真实世界数据集上训练的模型的性能。
提出的方法
- 作者通过使用特定领域的图像操作技术,对CASIA WebFace数据集(49.5万张图像)进行增强,合成具有受控姿态、面部形状和表情变化的新图像。
- 通过基于3D可变形模型的变换生成姿态变化,模拟不同的头部角度。
- 通过修改3D人脸模型的身份特异性组件引入面部形状变化,保持个体身份的同时改变几何结构。
- 通过变形面部关键点来合成表情变化,模拟微笑、皱眉等表情,同时不改变身份。
- 提出一种新颖的推理时匹配流程,对查询图像应用相同的合成方法,从而在姿态和表情变化下实现鲁棒识别。
- 该方法在增强数据集上训练单一CNN,并在标准基准测试集LFW、IJB-A(验证与识别)和Janus CS2上评估性能。
实验结果
研究问题
- RQ1合成数据增强是否可以替代训练深度人脸识别模型时对数百万张真实人脸图像的收集?
- RQ2特定领域的数据增强是否能有效捕捉通过网络爬取难以获取的类内面部变化?
- RQ3在小规模增强数据集上训练的人脸识别系统是否能达到与在大规模真实数据集上训练的最先进模型相当的性能?
- RQ4推理时的合成技术如何提升对姿态和表情变化的鲁棒性?
- RQ5不同类型的合成变化(姿态、形状、表情)对整体识别准确率的相对贡献如何?
主要发现
- 当同时引入姿态、形状和表情变化时,所提方法在LFW验证基准上的等错误率(EER)为100% - 98.00%,性能与在数百万张真实图像上训练的模型相当或更优。
- 仅使用49.5万张原始图像加上247万张合成图像进行训练,LFW上的准确率达到98.06%,超过在260万张真实图像上训练的VGG-Face模型(97.35%),并接近FaceNet的99.63%准确率。
- 消融实验表明,仅增加姿态变化即可使准确率从95.31%提升至97.01%,再加入形状和表情变化后进一步提升至98.06%。
- 尽管使用的真实数据显著更少,该方法仍优于DeepFace(97.35%准确率)和Fusion(98.37%准确率)。
- 与FaceNet(99.63%准确率)等顶尖模型相比,性能差距极小,表明合成数据可有效替代大规模数据采集。
- 结果表明,特定领域的数据增强是比收集和标注数百万张真实图像更具可及性和效率的替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。