[論文レビュー] Identifying and Correcting Label Bias in Machine Learning
この論文は、偏ったラベルがどのように生じるかのモデルを定式化し、ラベルを変更せずにさまざまな公正性の概念に対して偏りのない分類器を得る再重み付けスキームを提案する。理論的保証と標準的な公正性データセットでの実証的検証を提供する。
Datasets often contain biases which unfairly disadvantage certain groups, and classifiers trained on such datasets can inherit these biases. In this paper, we provide a mathematical formulation of how this bias can arise. We do so by assuming the existence of underlying, unknown, and unbiased labels which are overwritten by an agent who intends to provide accurate labels but may have biases against certain groups. Despite the fact that we only observe the biased labels, we are able to show that the bias may nevertheless be corrected by re-weighting the data points without changing the labels. We show, with theoretical guarantees, that training on the re-weighted dataset corresponds to training on the unobserved but unbiased labels, thus leading to an unbiased machine learning classifier. Our procedure is fast and robust and can be used with virtually any learning algorithm. We evaluate on a number of standard machine learning fairness datasets and a variety of fairness notions, finding that our method outperforms standard approaches in achieving fair classification.
研究の動機と目的
- バイアスのあるラベリングプロセスからラベルバイアスがどのように生じるかを動機づけ、 unbiased な地真の結果を目指して formalize する。
- 観測されたラベルや特徴を変更せずに、 unbiased なラベルを回復するデータ再重み付け技術を提案する。
- 再重み付けされた biased ラベル学習と unbiased ラベル学習の同値性を示す理論的保証を提供する。
- よく用いられる分類器で再重み付け係数を推定し、それを学習に適用するアルゴリズムを開発する。
- 複数の公正性概念とベンチマークデータセットでの有効性を実証する。
提案手法
- 未知の unbiased な地真ラベル関数と biased に観測されるラベル関数を、KLダージンスを制約とする最適化で関連付ける。
- 閉形式の関係を導出:y_bias は y_true に比例し、exp(-sum_k lambda_k c_k(x,y)) を掛けたものに比例する。
- y_true は y_bias に比例し、exp(+sum_k lambda_k c_k(x,y)) を掛けたものに比例することを示す。
- 再重み付け関数 w(x,y) = exp(sum_k lambda_k c_k(x,y)) を、sum_y で正規化してトレーニングサンプルを再重み付けする。
- biased ラベルでの重み付き学習が、tilde P という分布下での true ラベル学習と本質的に等価であることを証明する。
- 係数 lambda_k を学習し、再重み付け損失で学習して公正性制約を満たすためのアルゴリズム(Algorithm 1)を提供する。
実験結果
リサーチクエスチョン
- RQ1真のラベルが未知であり、公正性制約を満たすことが望まれる場合、ラベルバイアスは数学的にどのようにモデル化できるのか?
- RQ2biased ラベル付きデータの再重み付けは unbiased ラベルでの最適化と同等の学習ダイナミクスを回復できるか?
- RQ3人口統計的平等、差別的影響、機会の均等、等化オッズを満たすように bias係数をどのように学習・更新できるか?
- RQ4再重み付けされた biased データでの学習の一貫性の定理的保証(収束率)はどの程度か?
- RQ5提案手法は、後処理法やラグランジュ法と比較して、標準的な公正性データセットと概念でどの程度の性能を示すか?
主な発見
| Dataset | Metric | Unc. Err. | Unc. Vio. | Cal. Err. | Cal. Vio. | Lagr. Err. | Lagr. Vio. | Our Err. | Our Vio. |
|---|---|---|---|---|---|---|---|---|---|
| Bank | Dem. Par. | 9.41% | 0.0349 | 9.70% | 0.0068 | 10.46% | 0.0126 | 9.63% | 0.0056 |
| Bank | Eq. Opp. | 9.41% | 0.1452 | 9.55% | 0.0506 | 9.86% | 0.1237 | 9.48% | 0.0431 |
| Bank | Eq. Odds | 9.41% | 0.1452 | N/A | N/A | 9.61% | 0.0879 | 9.50% | 0.0376 |
| Bank | Disp. Imp. | 9.41% | 0.0304 | N/A | N/A | 10.44% | 0.0135 | 9.89% | 0.0063 |
| COMPAS | Dem. Par. | 31.49% | 0.2045 | 32.53% | 0.0201 | 40.16% | 0.0495 | 35.44% | 0.0155 |
- 観測された偏りラベルと基礎となる unbiased ラベルを、公正性制約に結びつく指数重みを介して結びつける閉形式の式を提示。
- 再重み付けスキームは、修正された特徴分布下で unbiased ラベルを用いた学習と等価な目的を達成する, mild な条件下で成立する。
- 反復的な Algorithm 1 により、偏り係数とサンプルウェイトを学習し、人口統計的平等、差別的影響、機会の均等などの公正性概念を達成できる。
- 標準的な公正性データセットでの実証評価は、提案手法が複数の概念でベースライン手法より公正性違反を軽減することを示す。
- 理論的結果は、重み付け推定量の有限サンプル収束率を確立し、次元依存性を改善する多様体認識型の速度を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。