Skip to main content
QUICK REVIEW

[论文解读] The Devil of Face Recognition is in the Noise

Fei Wang, Liren Chen|arXiv (Cornell University)|Jul 31, 2018
Face recognition and analysis参考文献 21被引用 23
一句话总结

本文研究了大规模人脸识别数据集中标签噪声的影响,提出了一种从电影海报和截图中提取的清洗后大规模IMDb-Face数据集。通过大量人工清洗和用户研究,作者表明在干净数据上训练的模型可实现显著更高的准确率——例如,IMDb-Face在LFW、MegaFace和YTF上实现了最先进性能,证明了数据质量与模型架构在人脸识别中的同等重要性。

ABSTRACT

The growing scale of face recognition datasets empowers us to train strong convolutional networks for face recognition. While a variety of architectures and loss functions have been devised, we still have a limited understanding of the source and consequence of label noise inherent in existing datasets. We make the following contributions: 1) We contribute cleaned subsets of popular face databases, i.e., MegaFace and MS-Celeb-1M datasets, and build a new large-scale noise-controlled IMDb-Face dataset. 2) With the original datasets and cleaned subsets, we profile and analyze label noise properties of MegaFace and MS-Celeb-1M. We show that a few orders more samples are needed to achieve the same accuracy yielded by a clean subset. 3) We study the association between different types of noise, i.e., label flips and outliers, with the accuracy of face recognition models. 4) We investigate ways to improve data cleanliness, including a comprehensive user study on the influence of data labeling strategies to annotation accuracy. The IMDb-Face dataset has been released on https://github.com/fwang91/IMDb-Face.

研究动机与目标

  • 理解MegaFace和MS-Celeb-1M等大规模人脸识别数据集中标签噪声的来源及其后果。
  • 开发一种系统化的方法,通过用户研究清洗有噪声的人脸识别数据集并提高标注准确性。
  • 创建一个全新的、大规模的、噪声受控的人脸识别数据集(IMDb-Face),用于基准测试和模型训练。
  • 评估不同类型的噪声——标签翻转和异常值——对模型性能和训练效率的影响。
  • 证明仅通过数据清洁即可实现与深度学习架构创新相当的性能提升。

提出的方法

  • 通过识别并纠正错误标注的身份和冗余图像,对MegaFace和MS-Celeb-1M的子集进行了人工清洗。
  • 构建了IMDb-Face,一个包含170万张图像、来自59,000位名人的新数据集,数据来源为IMDb电影海报和截图,确保了高视觉多样性并减少了噪声。
  • 开展了全面的用户研究,分析标注时间与标注准确率之间的关系,识别出时间是减少错误的关键因素。
  • 向IMDb-Face中注入受控噪声,以模拟现实世界中的标签损坏,并在不同噪声水平下评估模型的鲁棒性。
  • 在原始数据集和清洗后数据集上,使用标准损失函数(Softmax、Center Loss、A-Softmax)训练和评估人脸识别模型,以比较性能差异。
  • 在标准协议下,使用基准数据集(LFW、MegaFace、YTF)评估模型的泛化能力与最先进性能。

实验结果

研究问题

  • RQ1MegaFace和MS-Celeb-1M等大规模人脸识别数据集中的标签噪声如何影响模型准确率和训练效率?
  • RQ2不同类型的噪声(标签翻转与异常值)与人脸识别模型性能退化之间的关系是什么?
  • RQ3数据来源(如搜索引擎与IMDb等精心整理的媒体)如何影响人脸识别数据集的固有噪声水平和质量?
  • RQ4何种标注策略能在控制成本和时间的前提下最大化标注准确率?
  • RQ5在不进行架构或损失函数创新的情况下,数据清洁本身能在多大程度上提升模型性能?

主要发现

  • 仅在清洗后的MegaFace子集的32%数据上训练的模型,其性能与在完整但有噪声的数据集上训练的模型相当。
  • 仅在清洗后的MS-Celeb-1M子集的20%数据上训练的模型,其准确率与在完整有噪声版本上训练的模型相当,表明有噪声数据需要多两个数量级以上的样本才能达到同等性能。
  • 尽管IMDb-Face规模更小(170万张图像),但在使用A-Softmax损失时,其在MegaFace基准上的Rank-1准确率比完整版MS-Celeb-1M数据集高出1.1%。
  • 在IMDb-Face上训练的最先进模型在LFW上实现了99.79%的EER,优于所有已发表的单模型方法,包括私有方法。
  • 标注准确率与每张图像的标注时间密切相关,表明更长的标注时间可减少错误并提升数据质量。
  • 人脸识别模型对标签翻转(错误分配的身份)比对异常值(不属于任何目标身份的图像)更敏感,且随着噪声增加,性能呈非线性下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。