QUICK REVIEW

[論文レビュー] Fairness Evaluation in Presence of Biased Noisy Labels

Riccardo Fogliato, Max G’Sell|arXiv (Cornell University)|Mar 30, 2020

Machine Learning and Data Classification参考文献 41被引用数 23

ひとこと要約

本稿では、再犯ではなく逮捕という偏りがありノイズの多いラベル（例：逮捕）に依存してトレーニングおよび評価が行われるリスク評価ツールにおける公平性を評価する感度分析フレームワークを提案する。特に、人種別にラベル誤分類が異なる状況下で、小さなラベルバイアスですら公平性の結論をくつがえす可能性がある。実証的結果は、公平性を促進するアルゴリズムが妥当なノイズレベル下でも頑健であることを示している。

ABSTRACT

Risk assessment tools are widely used around the country to inform decision making within the criminal justice system. Recently, considerable attention has been devoted to the question of whether such tools may suffer from racial bias. In this type of assessment, a fundamental issue is that the training and evaluation of the model is based on a variable (arrest) that may represent a noisy version of an unobserved outcome of more central interest (offense). We propose a sensitivity analysis framework for assessing how assumptions on the noise across groups affect the predictive bias properties of the risk assessment model as a predictor of reoffense. Our experimental results on two real world criminal justice data sets demonstrate how even small biases in the observed labels may call into question the conclusions of an analysis based on the noisy outcome.

研究の動機と目的

リスク評価ツールが真の結果（再犯）ではなく、ノイズの多い代理指標（例：逮捕）に依存してトレーニングおよび評価されることによる重大な課題に対処すること。
同じ犯罪行動をとっているにもかかわらず、人種によって逮捕の可能性が異なるという差別的誤分類が、観察されたラベルに基づく公平性評価を無効にすることを調査すること。
公平性指標（例：キャリブレーション、予測同一性、誤差率のバランス）がグループ間で観察されないラベルバイアスに対してどの程度頑健であるかを定量化する統計的フレームワークを開発すること。
トレーニングラベルにグループ依存のノイズが存在する場合、公平性を促進する機械学習アルゴリズムが依然として有効であるかどうかを評価すること。
表面的には公平に見えるが、観察されない目的変数バイアス（TVB）のため、実際に再犯を予測する際には不公平である可能性があるという、観察された逮捕データに基づく公平性に関する結論が根本的に誤っている可能性を示すこと。

提案手法

グループ固有のラベルノイズをモデル化する感度パラメータ𝛼を導入し、𝛼₀と𝛼₁はそれぞれBlack集団およびWhite集団における真の再犯者を非再犯者と誤分類する確率を表す。
因果推論感度分析にインspiredされた理論的枠組みを用いて、𝛼の異なる水準下での公平性指標（例：予測同一性、誤差率のバランス）の解析的境界を導出する。
極端勾配ブースティングツリーを用いて人種別ノイズ率を推定するため、異なるノイズ仮定下でのデータをシミュレートする重み付きリサンプリング手順を適用する。
重み付き観察を用いたロジスティック回帰を用いてラベル依存のノイズ下でのキャリブレーションを評価し、Wald検定を用いて統計的有意性を評価する。
FERM、EQODDS、COMPAS6、および制約なしロジスティック回帰の4つのアルゴリズムを、𝛼の異なる水準下で評価し、頑健性を比較する。
経験的に観察された係数空間における対角制約を用いて境界を精緻化し、ノイズ下での公平性指標の挙動の解釈可能性を向上させる。

実験結果

リサーチクエスチョン

RQ1グループ固有のラベルノイズ（すなわち、再犯の誤分類の差異）は、逮捕データに基づいてトレーニングされたリスク評価モデルの公平性特性にどのように影響するか？
RQ2観察されたラベルが真の結果の偏った代理指標である場合、キャリブレーション、予測同一性、誤差率のバランスといった公平性指標はどの程度維持可能か？
RQ3どの程度のラベルバイアス（𝛼で定量化）があれば、観察データに基づく公平性に関する結論を逆転させるか？
RQ4公平性を促進するアルゴリズム（例：FERM、EQODDS）は、制約なしモデルと比較して現実的なノイズレベル下でどの程度の性能を示すか？
RQ5理論的境界が広い場合でも、経験的にラベル依存のノイズ下で公平性指標の境界がタイトで予測可能であることを確認できるか？

主な発見

非常に小さな目的変数バイアス（TVB）であっても、例として𝛼 = 0.12の場合、公平性の結論が顕著に変化する。これは、逮捕データでは公平に見えるモデルが、実際の再犯予測では不公平である可能性があることを示している。
COMPASデータセットにおいて、人種（A）の係数はラベル依存のノイズ下でも安定しているが、リスクスコア（S）の係数は隠れた再犯者に関する仮定に敏感である。これは、公平性の結論が観察されないラベル構造に強く依存していることを示している。
𝛼 ≤ 0.2の下では、制約なしモデル（例：ロジスティック回帰およびCOMPAS6）では誤差率のバランスを達成できない。これは、ノイズが存在する場合、観察ラベルに基づく公平性主張が信頼できないことを示している。
公平性を促進するアルゴリズム（例：FERM、EQODDS）は𝛼 > 0.08の下で誤差率のバランスを達成する。これは、制約なしモデルと比較して、ラベルノイズに対してより頑健であることを示している。
𝛼 = 0.12の下で、𝛼₁ = 0.04の場合、FERMは人種間で偽陽性率と偽陰性率のほぼ同一性を達成する。これは、こうした手法が中程度のラベルバイアス下でも公平性を維持できることを示している。
経験的に、公平性指標の係数は常に解析的境界を結ぶ対角線上に位置しており、理論的フレームワークの妥当性が裏付けられ、理論的区間が広くてもよりタイトな推論が可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。