[論文レビュー] Obtaining fairness using optimal transport theory
この論文は、公平性の定義(Disparate Impactと BER)を分析し、最適輸送を介したワッサースタイン重心を用いたデータ修正法を提案し、二値分類器の統計的平等または部分的公平性を達成する。
Statistical algorithms are usually helping in making decisions in many aspects of our lives. But, how do we know if these algorithms are biased and commit unfair discrimination of a particular group of people, typically a minority? extit{Fairness} is generally studied in a probabilistic framework where it is assumed that there exists a protected variable, whose use as an input of the algorithm may imply discrimination. There are different definitions of Fairness in the literature. In this paper we focus on two of them which are called Disparate Impact (DI) and Balanced Error Rate (BER). Both are based on the outcome of the algorithm across the different groups determined by the protected variable. The relationship between these two notions is also studied. The goals of this paper are to detect when a binary classification rule lacks fairness and to try to fight against the potential discrimination attributable to it. This can be done by modifying either the classifiers or the data itself. Our work falls into the second category and modifies the input data using optimal transport theory.
研究の動機と目的
- 公平性の概念(Disparate Impactと BER)と保護属性の予測可能性との関係を評価する。
- 真のラベルにアクセスせずに公正な分類器を得るための最適輸送を用いた確率的データ修復フレームワークを開発する。
- ワッサースタイン重心を用いた完全修復および部分修復を正当化し実装する。
- 情報喪失と公平性のトレードオフとしてRandom Repairを探る。
提案手法
- Disparate Impact(DI)と BER を定義し、それらを保護属性 S の予測可能性に関連づける。
- 条件分布 L(X|S=s) を Wasserstein 距離を用いて共通のターゲットへ写像する確率的データ修復フレームワークを提示する。
- 保護属性 S に条件づけられた X の共通分布を得るために Wasserstein 重心を導入し、統計的平等性を実現する。
- 完全修復(両方のグループを重心へ写像)と部分修復(重心へ向かう測地線補間)スキームを導出する。
- 修復データを用いた学習の利点を示す理論的界を提供し、修復データを用いた学習について議論する。
- 公平性と情報喪失のバランスを取る代替アプローチとして Random Repair を検討する。
実験結果
リサーチクエスチョン
- RQ1Disparate Impact と BER は保護属性の予測可能性を通じてどのように関連しているか?
- RQ2最適輸送によるデータ修復は予測力を保ちながら DI を低減できるか?
- RQ3なぜ Wasserstein barycenter は保護属性で条件付けられた分布を修復するのに適切なターゲットなのか?
- RQ4元データを用いた場合と比較して、修復データを用いた分類器の理論的保証(リスク境界)はどうなるのか?
- RQ5完全修復と部分修復は、公平性と情報喪失の観点でどのように異なるか?
主な発見
- DI は X の S 条件付き分布の総変動距離(TV 距離)に関連しており、TV 距離が小さいほど S の予測性は低下する。
- データを Wasserstein barycenter に修復すると、L( X˜ | S=0) と L( X˜ | S=1) を等しくすることで統計的平等性を達成できる。
- 最小修復は両グループのターゲット分布として Wasserstein barycenter を用くなることであり、完全修復は DI=1 かつ最大の公平性をもたらす。
- 部分修復は公平性と予測精度の間を調整するパラメータ λ を許容する。
- 理論的境界は、修復による過剰リスクが ηs のリプシッツ連続性と barycenter までの W2 距離に依存することを示す。
- Random Repair は情報喪失と公平性をトレードオフする別の戦略を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。