QUICK REVIEW

[論文レビュー] Understanding Unequal Gender Classification Accuracy from Face Images

Vidya Muthukumar, Tejaswini Pedapati|arXiv (Cornell University)|Nov 30, 2018

Face recognition and analysis参考文献 30被引用数 45

ひとこと要約

この論文は、商業用性別分類器がインターセクショナルなグループ（肌タイプ、性別、髪の長さ）間でなぜ不均一に性能を発揮するのかを調査し、肌タイプの影響は最小で、髪の長さが決定要因ではなく、顔の特徴とメイクがバイアスに寄与することを、安定性テストと対比的説明によって明らかにする。

ABSTRACT

Recent work shows unequal performance of commercial face classification services in the gender classification task across intersectional groups defined by skin type and gender. Accuracy on dark-skinned females is significantly worse than on any other group. In this paper, we conduct several analyses to try to uncover the reason for this gap. The main finding, perhaps surprisingly, is that skin type is not the driver. This conclusion is reached via stability experiments that vary an image's skin type via color-theoretic methods, namely luminance mode-shift and optimal transport. A second suspect, hair length, is also shown not to be the driver via experiments on face images cropped to exclude the hair. Finally, using contrastive post-hoc explanation techniques for neural networks, we bring forth evidence suggesting that differences in lip, eye and cheek structure across ethnicity lead to the differences. Further, lip and eye makeup are seen as strong predictors for a female face, which is a troubling propagation of a gender stereotype.

研究の動機と目的

肌タイプだけで unequal gender classification accuracy が説明できるかを評価する。
髪情報を除去した顔で髪の長さの影響を評価する。
性別分類の決定に寄与する最小十分な顔特徴を特定する。

提案手法

PPB* データセット（性別と肌タイプで均衡）を用い、肌タイプ間で分類器の頑健性を検証する。
YCrCb 空間での肌タイプ変動手法を適用：輝度のモードシフトと最適輸送を用いて予測の安定性を検証する。
髪の長さが潜在的な混乱因子となり得るかを、髪を含まない顔のクロップを用いて性能を比較する。
対比的説明を用いて、唇・目・頬（化粧を伴うことが多い）など、性別分類を推進する顕著な顔特徴を特定する。
複数の分類器（IBM Watson API、CelebA からの深層特徴を用いた SVM、VGGFace2 の ResNet-50）を学習・評価し、結果の再検証を行う。
肌タイプの変化下でのスコアの安定性を定量化するために、統計的検定（片側検定ではなく等分布の t 検定のようなもの）を用いた予測の分析を行う。

実験結果

リサーチクエスチョン

RQ1肌タイプのみで性別分類の結果に有意な影響を与えるか？
RQ2髪の長さは性別分類の不均衡な精度の要因か？
RQ3性別予測に対して十分な説明となる顔特徴は何か、それらはステレオタイプや偏った手掛かりを反映しているか？

主な発見

Classifier	Dark-skinned Female (DF)	Dark-skinned Male (DM)	Light-skinned Female (LF)	Light-skinned Male (LM)
Watson	82.5%	99.3%	98.5%	99.5%
Customized	70.5%	95.7%	86.8%	97.5%

輝度モードシフトまたは最適輸送による肌タイプの変動は、分類スコアにほとんど影響を与えない。予測スコアの変化の大半は非常に小さい。
暗い肌の女性の場合、モードシフトで 86.6%、OT で 76.6% のスコアが 0.1 を超えて lightening されても変わらない。肌が淡い女性の場合、モードシフトで 96.3%、OT で 92.1% が darkening しても 0.1 を超えて変わらない。
髪の長さは暗い肌女性における差異のある精度と相関する：短髪の暗い肌女性は 75% の精度、長髪の暗い肌女性は 92% の精度。全体として、長髪はグループ間で高い精度と一致する。
髪の毛なしの顔クロップ（髪なし）では、精度は依然として不均等：暗い肌の女性は他グループより低い精度を示す（例：Watson 深層特徴の SVM：女性暗肌 66.3%、男性暗肌 91.5%；女性淡肌 80.6%、男性淡肌 96.9%）。
対比的説明は、唇・頬・目（しばしば化粧を伴う）が女性予測の顕著な特徴として現れ、鼻・額は男性予測と一致することを示す。これはデータセットに存在する性別化された顔の手掛かりに依存していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。