[论文解读] Robustness Disparities in Commercial Face Detection
该研究在 15 个 ImageNet-C 噪声下,对四个数据集的三种商业人脸检测系统(Amazon Rekognition、Microsoft Azure、Google Cloud)的鲁棒性进行基准测试;揭示不同人口群体在错误率上的差异,以及在噪声与昏暗照明条件下的更强衰减。
Facial detection and analysis systems have been deployed by large companies and critiqued by scholars and activists for the past decade. Critiques that focus on system performance analyze disparity of the system's output, i.e., how frequently is a face detected for different Fitzpatrick skin types or perceived genders. However, we focus on the robustness of these system outputs under noisy natural perturbations. We present the first of its kind detailed benchmark of the robustness of three such systems: Amazon Rekognition, Microsoft Azure, and Google Cloud Platform. We use both standard and recently released academic facial datasets to quantitatively analyze trends in robustness for each. Across all the datasets and systems, we generally find that photos of individuals who are older, masculine presenting, of darker skin type, or have dim lighting are more susceptible to errors than their counterparts in other identities.
研究动机与目标
- 量化三种商业人脸检测 API 对真实图像损坏的鲁棒性。
- 检视鲁棒性如何随人口统计属性(年龄、性别呈现、Fitzpatrick 皮肤类型)与照明条件而变化。
- 提供一个可扩展的基准框架,用于评估商业检测系统的鲁棒性。
- 使得与 ImageNet-C 发现及以往公正性研究的比较成为可能,且不假设内部训练数据或模型。
提出的方法
- 对 4 个数据集(Adience、CCD、MIAP、UTKFace)应用 15 种 ImageNet-C 损坏,分 5 个严重性级别。
- 对每张图像查询 AWS、Azure 与 Google Cloud Platform 的人脸检测 API,并记录检测到的人脸数量作为地面真值代理。
- 将相对损坏错误 rCE 计算为若失真后检测到的人脸数量变化则为 1,否则为 0。
- 汇总为跨数据集、损坏类型、严重性和人口组的平均相对损坏错误 mrCE。
- 人工标注文 772 张图像,以 IoU≥0.5 推导每张图像的精准度,并验证精准度与人脸数量代理之间的相关性(Pearson r=0.91,p<0.001)。
实验结果
研究问题
- RQ1商业人脸检测 API 在自然图像损坏下,是否对人口群体存在鲁棒性差异?
- RQ2在不同数据集上,鲁棒性如何随年龄、性别呈现、皮肤类型(Fitzpatrick)和照明条件变化?
- RQ3在三种 API(AWS、Azure、GCP)中,哪一个在特定损坏类型下表现出最强的鲁棒性退化?
- RQ4与先前关于非人脸数据的 ImageNet-C 发现相比,鲁棒性结果如何?
主要发现
- 噪声损坏在多数数据集和服务中显著降低性能,效果比其他损坏类型更大。
- 年长对象、呈现男性特征的个体、肤色较深的类型以及昏暗照明在各数据集上显示出更高的错误率(约 20-60%)。
- GCP 在各数据集上始终不及 Azure;而 Azure 和 AWS 在特定损坏上表现出更显著的退化。
- 昏暗照明放大差异并缩小跨组差距,尽管某些身份(如 Other gender)表现出不同模式。
- 性别估计对损坏的敏感性远高于人脸检测,AWS 的错性别率从清洁数据的 9.1% 上升到受损数据的 21.6%;在损坏数据上,年龄估计误差约增加 40%。
- 在不同身份中,肤色更暗与年龄较大相关地提高 mrCE,存在显著的跨层面效应,如在 CCD/MIAP 数据集中,肤色更暗、男性化特征的个体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。