QUICK REVIEW

[論文レビュー] fairadapt: Causal Reasoning for Fair Data Pre-processing

Drago Plečko, Nicolas Bennett|arXiv (Cornell University)|Oct 19, 2021

Qualitative Comparative Analysis Research被引用数 3

ひとこと要約

fairadapt は、反事後的推論を用いて、個人の感受性属性（例：性別、人種）が異なっていた場合にあたかもそのように調整されたデータポイントを生成する、因果推論に基づく前処理手法を実装した R パッケージである。構造的因果モデル内で再帰的分位数マッチングを適用することにより、モデル再訓練を必要とせずに、人的差別のを低減しつつ、公平なデータ適応を可能にする。また、解消可能な変数と Semi-Markovian モデルをサポートしており、結果における人口統計的差別の低減が実現される。

ABSTRACT

Machine learning algorithms are useful for various predictions tasks, but they can also learn how to discriminate, based on gender, race or other sensitive attributes. This realization gave rise to the field of fair machine learning, which aims to measure and mitigate such algorithmic bias. This manuscript describes the R-package fairadapt, which implements a causal inference pre-processing method. By making use of a causal graphical model and the observed data, the method can be used to address hypothetical questions of the form "What would my salary have been, had I been of a different gender/race?". Such individual level counterfactual reasoning can help eliminate discrimination and help justify fair decisions. We also discuss appropriate relaxations which assume certain causal pathways from the sensitive attribute to the outcome are not discriminatory.

研究の動機と目的

感受性属性に関する個人レベルの反事後的推論を可能にすることで、機械学習におけるアルゴリズムバイアスに対処すること。
モデル再訓練を必要とせず、不公平な結果を緩和する因果推論に基づく前処理手法を提供すること。
解消可能な変数と Semi-Markovian モデルをサポートする手法を実装し、より現実的な公平性仮定を可能にすること。
理論的根拠として構造的因果モデルを有する実用的でオープンソースの R パッケージ（CRAN に登録済みの fairadapt）を提供すること。

提案手法

構造的因果モデル（SCM）を用いて、個人の感受性属性（例：性別）が仮想的に変更された反事後的世界を定義する。
再帰的分位数マッチングを適用：各個人について、因果的連鎖内の各変数について、その観測値をターゲットグループ（例：女性）の分布における同等の分位数にマッピングする。
潜在的結果表記法を用いて、反事後的値 Y(fp) を計算し、P(Y ≥ y | E=e, T=t, A=a') = P(Y ≥ y(fp) | E=e(fp), T=t(fp), A=a) を満たすようにする。
解消可能な変数をサポートし、完全な人口統計的同一性の仮定を緩和し、観測データによって正当化される場合に限り、一部の差別的差異を許容する。
双方向エッジを用いて潜在変数の交絡を組み込むことで Semi-Markovian モデルに拡張し、正確な分位数推定のための拡張親集合（Pa(Vi)）を用いる。
Tian と Pearl（2002）に基づく同定可能性のチェックを実装し、感受性属性または解消可能な変数を含むブロッキングされていない背後パスがある場合には、介入を拒否する。

実験結果

リサーチクエスチョン

RQ1性別や人種などの感受性属性によるバイアスを排除するために、反事後的推論を用いて個人レベルのデータポイントを公平に調整できるか？
RQ2モデル再訓練を一切行わず、前処理のみで公平なデータ適応を達成できるか？
RQ3解消可能な変数により、一部の非差別的差異を許容するより洗練された公平性定義をどの程度実現できるか？
RQ4潜在交絡を伴う因果モデルにおいて、反事後的介入が同定可能となる条件は何か？
RQ5複雑で相互に依存する因果構造を有する現実世界のデータに適用した場合、この手法はどの程度の性能を示すか？

主な発見

解消可能な変数（試験得点）を用いた場合、予測結果における性別グループ間の全変動（total variation）は -0.6757 から -0.4101 に低下し、差別の低減が明確に測定された。
変換された値を計算することで、個人レベルの反事後的推論が可能となり、たとえば男性の教育的達成度を女性の分布における同等の百分位数にマッチングするなど、ターゲットグループ内での相対的順位を保持する。
実装は Markovian モデルと Semi-Markovian モデルの両方をサポートしており、後者は試験得点と最終結果の間の潜在的交絡を許容する。
感受性属性または解消可能な変数を含むブロッキングされていない背後パスがある場合、非同定可能な介入を検出し、エラーを返す。
複雑なモデルにおける明示的な親集合指定の代わりに、変数のトポロジカル順序への拡張が可能で、柔軟な代替手段を提供する。
fairadapt は、CRAN に登録された最初の因果推論に基づく前処理手法を実装したパッケージであり、公平な機械学習のための利用可能なツールの空白を埋めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。