QUICK REVIEW

[论文解读] Understanding Unequal Gender Classification Accuracy from Face Images

Vidya Muthukumar, Tejaswini Pedapati|arXiv (Cornell University)|Nov 30, 2018

Face recognition and analysis参考文献 30被引用 45

一句话总结

本论文研究商业性别分类器在交叉群体（皮肤类型、性别、头发长度）间为何表现不均，并发现皮肤类型影响很小，头发长度不是驱动因素，而面部特征和妆容有助于偏差，通过稳定性测试和对比性解释。

ABSTRACT

Recent work shows unequal performance of commercial face classification services in the gender classification task across intersectional groups defined by skin type and gender. Accuracy on dark-skinned females is significantly worse than on any other group. In this paper, we conduct several analyses to try to uncover the reason for this gap. The main finding, perhaps surprisingly, is that skin type is not the driver. This conclusion is reached via stability experiments that vary an image's skin type via color-theoretic methods, namely luminance mode-shift and optimal transport. A second suspect, hair length, is also shown not to be the driver via experiments on face images cropped to exclude the hair. Finally, using contrastive post-hoc explanation techniques for neural networks, we bring forth evidence suggesting that differences in lip, eye and cheek structure across ethnicity lead to the differences. Further, lip and eye makeup are seen as strong predictors for a female face, which is a troubling propagation of a gender stereotype.

研究动机与目标

评估单独的皮肤类型是否能解释性别分类准确度的不平等。
通过在面部排除头发信息来评估头发长度的影响。
确定驱动性别分类决策的最小充分面部特征。

提出的方法

使用 PPB* 数据集（按性别和肤类型平衡）测试分类器在不同皮肤类型上的鲁棒性。
在 YCrCb 空间应用皮肤类型变异方法：亮度模式转换和最优传输，以测试预测稳定性。
通过使用不含头发的人脸裁剪并比较性能，研究头发长度作为潜在混淆变量。
使用对比性解释来识别驱动性别分类的显著面部特征（嘴唇、眼睛、脸颊；鼻子、额头）。
训练并评估多种分类器（IBM Watson API、使用 CelebA 的深度人脸特征的 SVM、在 VGGFace2 上的 ResNet-50）以实现结果的交叉验证。
使用统计检验（单样本 t 检验）分析在皮肤类型变化下分数的稳定性。

实验结果

研究问题

RQ1仅皮肤类型是否显著影响性别分类结果？
RQ2头发长度是否是性别分类不平等准确性的驱动因素？
RQ3哪些面部特征可以作为性别预测的充分解释，它们是否反映刻板印象或偏见线索？

主要发现

Classifier	Dark-skinned Female (DF)	Dark-skinned Male (DM)	Light-skinned Female (LF)	Light-skinned Male (LM)
Watson	82.5%	99.3%	98.5%	99.5%
Customized	70.5%	95.7%	86.8%	97.5%

皮肤类型变异（通过亮度模式转换或最优传输）对分类分数影响很小；预测分数的变化大多非常微小。
在深色皮肤的女性样本中，亮化时86.6%（模式转换）和76.6%（OT）的分数不超过0.1的变化；在浅色皮肤女性中，变暗时96.3%（模式转换）和92.1%（OT）的分数不超过0.1的变化。
头发长度与深色女性的准确率差异相关：短发深色女性的准确率为75%，长发深色女性为92%；总体而言，长发在各组中与更高的准确率一致。
仅脸部裁剪（无头发）情况下，准确率仍不均：深色皮肤女性在所评估的分类器中表现为较低准确率（例如：Watson 深度特征的 SVM：66.3% 女性深色 vs 91.5% 男性深色；80.6% 女性浅色 vs 96.9% 男性浅色）。
对比性解释显示嘴唇、脸颊和眼睛（通常有妆容）是女性预测的显著特征，而鼻子/额头与男性预测一致；这表明对数据集中存在的性别化面部线索的依赖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。