QUICK REVIEW

[论文解读] MegaFace: A Million Faces for Recognition at Scale

Daniel Miller, Brossard, E.|arXiv (Cornell University)|May 8, 2015

Face recognition and analysis参考文献 27被引用 44

一句话总结

本文提出了MegaFace，一个大规模基准数据集，包含来自Flickr的100万张非约束、真实世界的人脸图像，用于在行星规模下评估人脸识别算法。结果表明，尽管大多数算法在大规模条件下性能显著下降，但Google的FaceNet仍保持强大性能（在100万张干扰图像下，rank-1识别准确率达75%），优于人类，后者在相同条件下仅达到23.9%的rank-1准确率。

ABSTRACT

Recent face recognition experiments on the LFW benchmark show that face recognition is performing stunningly well, surpassing human recognition rates. In this paper, we study face recognition at scale. Specifically, we have collected from Flickr a extbf{Million} faces and evaluated state of the art face recognition algorithms on this dataset. We found that the performance of algorithms varies--while all perform great on LFW, once evaluated at scale recognition rates drop drastically for most algorithms. Interestingly, deep learning based approach by \cite{schroff2015facenet} performs much better, but still gets less robust at scale. We consider both verification and identification problems, and evaluate how pose affects recognition at scale. Moreover, we ran an extensive human study on Mechanical Turk to evaluate human recognition at scale, and report results. All the photos are creative commons photos and is released at \small{\url{http://megaface.cs.washington.edu/}} for research and further experiments.

研究动机与目标

评估最先进人脸识别算法在LFW基准之外的可扩展性。
建立一个大规模、公开可用的非约束、真实世界人脸数据集，以支持研究。
在大规模环境下测量人类的人脸识别性能，特别是高干扰物负荷下的表现。
研究姿态变化在大规模设置下对识别准确率的影响。
提供一个包含训练集与测试集的标准化基准，以确保不同方法之间的公平评估。

提出的方法

从Flickr的Creative Commons 100M照片集合中收集了100万张人脸图像，确保其具有多样性和非约束性条件。
构建了一个包含100万张干扰图像的大规模人脸识别基准，将训练集与测试集分离，以实现公平评估。
在验证（成对匹配）和识别（rank-1与rank-10）任务上评估算法性能。
通过Amazon Mechanical Turk开展大规模人类实验，参与者需从每张查询图像的10,000张干扰图像中识别出正确匹配项。
使用累积匹配特性（CMC）曲线和受试者工作特征（ROC）曲线，衡量在不同干扰图像数量下的性能表现。
通过测量查询图像与图库图像之间yaw角度差异下识别准确率的变化，分析姿态影响。

实验结果

研究问题

RQ1当扩展到一百万张干扰图像时，当前人脸识别算法的表现如何？
RQ2在大规模环境下，人类的人脸识别性能与机器学习模型相比如何？
RQ3姿态变化对大规模设置下识别准确率有何影响？
RQ4在大规模条件下，算法在验证任务与识别任务中的表现有何差异？
RQ5数据集偏差（如正面与非正面图像）在多大程度上影响识别性能？

主要发现

FaceNet在100万张干扰图像下实现了75%的rank-1识别率，显著优于其他算法。
大多数非深度学习算法在扩展到100万张干扰图像时，性能下降超过70%。
人类在10,000张干扰图像下实现了23.9%的rank-1识别率，表明人类识别在大规模下性能显著下降。
随着查询图像与图库图像之间yaw角度差异的增加，识别性能下降，表明跨姿态匹配仍是挑战。
当干扰图像为正面姿态（yaw < 2°）时，Joint Bayesian方法表现更差，表明姿态偏差会影响算法性能。
FaceNet与Joint Bayesian方法在不同数据库规模下的验证性能保持稳定，表明其在成对匹配任务中具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。