QUICK REVIEW

[論文レビュー] Training individually fair ML models with Sensitive Subspace Robustness

Mikhail Yurochkin, Amanda Bower|arXiv (Cornell University)|Jun 28, 2019

Explainable Artificial Intelligence (XAI)参考文献 41被引用数 53

ひとこと要約

要約: 本論文は、個別的公平性を感受性のある入力 perturbations に対する頑健性として、分布的に頑健化された最適化と Wasserstein 距離を用いて定式化し、感受性サブスペースに対して公平なモデルを訓練する SenSR を提案する。理論的保証と経験的結果を併せて示す。

ABSTRACT

We consider training machine learning models that are fair in the sense that their performance is invariant under certain sensitive perturbations to the inputs. For example, the performance of a resume screening system should be invariant under changes to the gender and/or ethnicity of the applicant. We formalize this notion of algorithmic fairness as a variant of individual fairness and develop a distributionally robust optimization approach to enforce it during training. We also demonstrate the effectiveness of the approach on two ML tasks that are susceptible to gender and racial biases.

研究の動機と目的

感度 perturbation に対する頑健性として個別的公平性を動機づけ、形式化する。
公平な Wasserstein 距離を用いた分布的に頑健な公平性（DRF）を導入する。
Sensitive Subspace Robustness (SenSR) を提案・実装し、個別に公平なモデルを訓練する。
一様収束と公平性認証に関する理論的保証を提供する。
感情分析と収入予測タスクで有効性を実証する。）

提案手法

指定された感受性方向を無視する公正メトリック d_x を定義し、入力と出力を結ぶ d_z を用いて公正 Wasserstein 距離 W を構築する。
ε-Wasserstein ボール内の分布に対して損失を最大化する分布的に頑健化された最適化（DRO）問題を解くことでモデルの公正性を監査する（式 2.1）。
DRO 問題を扱いやすい双対形（式 2.3）に変換し、確率的最適化（アルゴリズム 1）で解く。
公正訓練をミニマックス DRO 問題（式 2.5）として捉え、敵対的訓練に触発された SenSR アルゴリズム（アルゴリズム 2）で解く。
一様収束保証（命題 3.1–3.3）を提供し、SenSR が個別に公平なモデルを生み出し、公正性の認証を提供できる条件を示す。
アプローチを既存の DRO および敵対的公平性法と関連づけ、コスト関数の差異（A3）と距離学習について論じる。

実験結果

リサーチクエスチョン

RQ1データや観測属性から学習された公正メトリックを用いる場合、個別の公平性をどのように強制できるか？
RQ2公正 Wasserstein 距離を用いた分布的に頑健化された最適化は、感受性 perturbations に対して頑健でありつつ、モデルの性能を維持できるか？
RQ3この設定における SenSR の理論的保証（一様収束、公平性認証）は何か？
RQ4名前など観測される属性の有無にかかわらず SenSR はどのように機能するか（感情分析での名前、有無、収入予測など）？

主な発見

Table 1: Sentiment prediction experiments — 10 restarts	Table 2: Adult classification experiments — 10 restarts
SenSR	Acc.,% 94 ± 1; Race gap 0.30 ± .05; Gend. gap 0.19 ± .03; Cuis. gap 0.23 ± .05
SenSR-E	Acc.,% 93 ± 1; Race gap 0.11 ± .04; Gend. gap 0.04 ± .03; Cuis. gap 1.11 ± .15
Baseline	Acc.,% 95 ± 1; Race gap 7.01 ± .44; Gend. gap 5.59 ± .37; Cuis. gap 4.10 ± .44
Project	Acc.,% 94 ± 1; Race gap 1.00 ± .56; Gend. gap 1.99 ± .58; Cuis. gap 1.70 ± .41
Sinha+	Acc.,% 94 ± 1; Race gap 3.88 ± .26; Gend. gap 1.42 ± .29; Cuis. gap 1.33 ± .18
Bolukb.+	Acc.,% 94 ± 1; Race gap 6.85 ± .53; Gend. gap 4.33 ± .46; Cuis. gap 3.44 ± .29
Table 2 row 1	SenSR: 78.9; S-Con. 0.934; GR-Con. 0.984; Gap_G^RMS 0.068; Gap_R^RMS 0.055; Gap_G^max 0.087; Gap_R^max 0.067
Table 2 row 2	Baseline: 82.9; S-Con. 0.848; GR-Con. 0.865; Gap_G^RMS 0.179; Gap_R^RMS 0.089; Gap_G^max 0.216; Gap_R^max 0.105
Table 2 row 3	Project: 82.7; S-Con. 0.868; GR-Con. 1.00; Gap_G^RMS 0.145; Gap_R^RMS 0.064; Gap_G^max 0.192; Gap_R^max 0.086
Table 2 row 4	Adv. Debiasing: 81.5; S-Con. 0.807; GR-Con. 0.841; Gap_G^RMS 0.082; Gap_R^RMS 0.070; Gap_G^max 0.110; Gap_R^max 0.078
Table 2 row 5	CoCL: 79.0; S-Con. -; GR-Con. -; Gap_G^RMS 0.163; Gap_R^RMS 0.080; Gap_G^max 0.201; Gap_R^max 0.109

SenSR/DRF 訓練により、公正性指標のギャップを大幅に削減しつつ精度を維持するモデルを実現（例：感情タスクで Race および Gender ギャップの大幅な低減を示す）。
感情分析の実験で SenSR および SenSR-E は名前ごとの感情予測をほぼ等しく達成し、個別の公平性においてベースラインや他のデバイアス除去手法を上回る。
Adult データセットでは SenSR が S-Con および GR-Con 公正性指標を改善し、ベースラインと比較してグループ公正性指標が競争力を持つ、 balanced accuracy の低下は控えめ。
論文は鑑定機能に似た一般化境界（式 3.3 および命題 3.1–3.3）を提供し、DRO の損失と公正性保証を結びつけ、実務家の公正性認証を可能にする。
本手法はデータから公正なメトリックを学習（観測・未観測の感受性属性）することを可能にし、タスク間で感受性サブスペースの摂動に対する頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。