QUICK REVIEW

[论文解读] About Face: A Survey of Facial Recognition Evaluation

Inioluwa Deborah Raji, Genevieve Fried|arXiv (Cornell University)|Feb 1, 2021

Face recognition and analysis参考文献 51被引用 39

一句话总结

本综述分析了 100+ 面部数据集（1976–2019），总计 1.45 亿张图像，评估基准和人口统计数据如何演变，并主张进行明确的情境报告，以使评估与实际部署保持一致。

ABSTRACT

We survey over 100 face datasets constructed between 1976 to 2019 of 145 million images of over 17 million subjects from a range of sources, demographics and conditions. Our historical survey reveals that these datasets are contextually informed, shaped by changes in political motivations, technological capability and current norms. We discuss how such influences mask specific practices (some of which may actually be harmful or otherwise problematic) and make a case for the explicit communication of such details in order to establish a more grounded understanding of the technology's function in the real world.

研究动机与目标

捕捉面部识别评估在四个历史时期的演变，以及数据集设计如何影响模型性能
评估基准中的数据来源、同意/隐私与人口统计表示
强调基准性能与现实世界结果之间的差异，并倡导情境化报告
提出改进评估报告与治理框架，以更好地反映部署情境

提出的方法

对 133 个数据集（1976–2019）共计 145,143,610 張像、17,733,157 名个体的历史、按时期分析
对数据来源（拍摄会话、网页来源、监控）、同意做法及人口统计报告进行分类
分析评估指标（FMR、FNMR、准确率）及阈值选择如何影响报告的性能
跨时代汇总任务类型（检测、验证、识别、分析）及其相应的基准
评估治理、审计（如 NIST FVRT）的价值，以及需要全面、以部署为导向的评估
讨论伦理风险、隐私问题，以及基准与营销中潜在的滥用

实验结果

研究问题

RQ1从 1976 年至 2019 年，面部识别基准和数据来源有何演变？
RQ2推动评估实践的主要因素有哪些，包括人口统计、同意与报告规范？
RQ3为何基准结果常与现实世界表现出现偏差，评估如何更好地反映部署情境？
RQ4需要哪些治理、审计和报告改进，以使评估更加全面且具伦理责任？

主要发现

时期	阶段 I	阶段 II	阶段 III	阶段 IV	年份
创建的数据集数量	5	37	33	45	1996 年之前	1996 - 2007	2007-2014	2014 年之后
每个数据集的图像范围（最小-最大）	56 - 14,126	120 - 121,589	154 - 750,000	642 - 50,000,000
每个数据集的受试者范围（最小-最大）	4 - 1,199	10 - 37,437	32 - 40,395	50 - 14,400,000
每个数据集的平均图像数	2,032	11,250	46,308	2,620,489
每个数据集的平均受试者数	136	1,641	4,078	75,726
-	-	-	-	-

调查覆盖 133 个数据集（1976–2019），共有 145,143,610 张图像，涉及 17,733,157 名主体
数据集发布呈现四个时期，规模、范围与任务出现 distinct 趋势，直至 2014 年后进入深度学习时代
现实世界部署中的失败与偏见（如人口统计差异）未必在基准表现中得到充分体现
数据来源从受控拍摄转向网页来源和监控数据，带来同意与隐私方面的担忧
人口统计表示不均衡，在线数据集出现西方偏见，某些数据集存在标注问题
评估指标（FMR、FNMR、准确率）可通过阈值操纵；建议进行全面审计与情境感知的报告
NIST FVRT 展示了双模态评估（定量性能与定性易用性）对就绪部署的价值
论文倡导明确说明数据集构建、同意、来源及预期使用场景，以将评估扎根于现实功能

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。