QUICK REVIEW

[论文解读] Learning Face Representation from Scratch

Yi Dong, Zhen Lei|arXiv (Cornell University)|Nov 28, 2014

Face recognition and analysis参考文献 21被引用 1,651

一句话总结

本文介绍了 CASIA-WebFace，一个大规模、公开可用的人脸数据集，包含约 50 万张来自 10,000 位被试者的图像，通过半自动的网络爬取与聚类流程收集。利用该数据集，作者训练了一个 11 层卷积神经网络，在 LFW（BLUFR 协议下准确率达到 99.16%）和 YTF（准确率达到 92.24%）上实现了最先进性能，在监督设置下优于 DeepFace 和 DeepID2。

ABSTRACT

Pushing by big data and deep convolutional neural network (CNN), the performance of face recognition is becoming comparable to human. Using private large scale training datasets, several groups achieve very high performance on LFW, i.e., 97% to 99%. While there are many open source implementations of CNN, none of large scale face dataset is publicly available. The current situation in the field of face recognition is that data is more important than algorithm. To solve this problem, this paper proposes a semi-automatical way to collect face images from Internet and builds a large scale dataset containing about 10,000 subjects and 500,000 images, called CASIAWebFace. Based on the database, we use a 11-layer CNN to learn discriminative representation and obtain state-of-theart accuracy on LFW and YTF. The publication of CASIAWebFace will attract more research groups entering this field and accelerate the development of face recognition in the wild.

研究动机与目标

为解决公开可用的大规模人脸数据集缺乏的问题，该问题阻碍了人脸识别算法的可复现研究与公平比较。
开发一种可扩展的半自动流程，利用 IMDb 的结构化数据和聚类技术，收集并标注基于网络的人脸图像。
建立一个大规模、无重叠的训练数据集，以支持在真实场景中进行深度卷积神经网络的人脸表征学习。
提供一个公开的基准数据集，标准化 LFW 和 YTF 的评估协议，促进公平且可比较的研究。
在 CASIA-WebFace 上训练一个高性能的深度卷积神经网络基线模型，使其在标准基准上超越现有方法。

提出的方法

使用姓名作为查询，从 IMDb 爬取名人图像，利用该网站的结构化元数据提取图像 URL。
应用人脸聚类算法将多人图像中的面部进行分组，基于姓名共现与空间接近度分配身份标签。
通过姓名的编辑距离检测并移除与 LFW 的潜在重叠，确保数据集的独立性。
通过人工验证与修正标注，提高标签的准确性。
训练一个包含 ReLU、Dropout 以及联合识别/验证损失函数的 11 层深度卷积神经网络。
使用学习到的特征在 LFW（标准与 BLUFR 协议）和 YTF 上进行评估，采用余弦相似度，并结合主成分分析（PCA）或联合贝叶斯后处理。

实验结果

研究问题

RQ1半自动流程是否能有效从网络上收集并标注大规模、多样化的面部图像，同时将人工工作量降至最低？
RQ2像 CASIA-WebFace 这样公开且无重叠的人脸数据集，是否能够支持训练出在 LFW 和 YTF 等标准基准上泛化能力良好的深度卷积神经网络？
RQ3在无约束人脸识别任务中，基于 CASIA-WebFace 训练的深度卷积神经网络与 DeepFace 和 DeepID2 等最先进模型相比，在准确率和鲁棒性方面表现如何？
RQ4在代表监控应用的低误报率场景中，基于 CASIA-WebFace 的表征学习能在多大程度上提升性能？
RQ5仅使用一个在 CASIA-WebFace 上训练的深度网络，是否能实现与集成模型相当的性能，尤其是在结合简单后处理技术时？

主要发现

所提出的半自动流程成功以极少的人工干预收集了 500,000 张来自 10,000 位被试者的面部图像，构建了一个高质量、无重叠的数据集。
在 CASIA-WebFace 上训练的 11 层卷积神经网络在 BLUFR 协议下的 LFW 上达到 99.16% 的准确率，显著优于基于 HD-LBP 的方法（FAR=0.1% 时识别率为 41.66%）。
在 YTF 数据集上，该模型在监督设置下达到 92.24% 的准确率，高于使用联合贝叶斯后处理的 DeepFace（91.4%）。
在 YTF 上，PCA 和联合贝叶斯后处理带来的性能提升显著，准确率从仅使用余弦相似度的 88.00% 提升至 92.24%。
结果表明，深度模型显著优于如 HD-LBP 这类宽模型，尤其在对监控应用至关重要的低误报率场景中。
CASIA-WebFace 的公开发布实现了公平、可复现的基准测试，加速了无约束人脸识别领域的研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。