QUICK REVIEW

[論文レビュー] Fair Data Adaptation with Quantile Preservation

Drago Plečko, Nicolai Meinshausen|arXiv (Cornell University)|Nov 15, 2019

Income, Poverty, and Inequality被引用数 6

ひとこと要約

本稿では、構造的因果モデルにおける分位数保存を用いて、モデルの誤特定の影響を受けない公平性を保証する、公平な機械学習の事前処理手法を提案する。保護属性への介入のもとで反事後分位数を保存することで、分類器の種類にかかわらず集団レベルの公平性（例：デモグラフィックパラティーション、反事後公平性）を保証する。実証的検証はランダムフォレストとRパッケージ（fairadapt）を用いて実施された。

ABSTRACT

Fairness of classification and regression has received much attention recently and various, partially non-compatible, criteria have been proposed. The fairness criteria can be enforced for a given classifier or, alternatively, the data can be adapated to ensure that every classifier trained on the data will adhere to desired fairness criteria. We present a practical data adaption method based on quantile preservation in causal structural equation models. The data adaptation is based on a presumed counterfactual model for the data. While the counterfactual model itself cannot be verified experimentally, we show that certain population notions of fairness are still guaranteed even if the counterfactual model is misspecified. The precise nature of the fulfilled non-causal fairness notion (such as demographic parity, separation or sufficiency) depends on the structure of the underlying causal model and the choice of resolving variables. We describe an implementation of the proposed data adaptation procedure based on Random Forests and demonstrate its practical use on simulated and real-world data.

研究の動機と目的

事後的なモデル修正ではなく、データ変換によってすべての分類器が公平性基準を満たすようにすることにより、機械学習における公平性を改善すること。
保護属性への介入における分位数の保存を保証する、因果的構造方程式モデル（SEMs）に基づく実用的で事前処理型のアプローチを提供すること。
仮定された因果モデルが誤っている場合でも、公平性の概念（例：デモグラフィックパラティーション、反事後公平性）が保持されることを示すこと。
ユーザーが解消変数と非解消変数を定義できるようにすることで、因果経路を明示的にモデル化し、柔軟な公平性制御を可能にすること。
ランダムフォレストを用いた実装と検証を行い、実用的利用を可能にするためにRパッケージ（fairadapt）として公開すること。

提案手法

各変数がその親変数と潜在的な一様分位数変数 U の関数である非パラメトリック構造方程式モデル（NPSEM）を用いる。
分位数保存仮定（QPA）を適用：保護属性 A に対する do-介入のもとでも、条件付き分位数 U は変化しない。
反事後値 X(A = a, U = u) を、A = a に対する介入を施した状態で、潜在的分位数 U を固定したもとでの結果として定義する。
アルゴリズム1を用いてデータ適応を実装し、親変数を再帰的に用いて変換値を計算する。適応親集合（aps）を用いて、不公平な経路を選択的に除去する。
解消変数については aps(R) = ∅ とする。非解消変数については aps(X) = pa(X) とし、保護属性からの不当な影響を部分的に除去可能にする。
適応済みデータにおける予測にランダムフォレストを用いることで、公平性と性能の実用的導入・評価を可能にする。

実験結果

リサーチクエスチョン

RQ1分位数保存に基づくデータ適応は、モデルの誤特定が生じても、適応済みデータ上で学習されたすべての分類器に対して公平性を保証できるか？
RQ2解消変数と非解消変数の選択が、得られる分類器の公平性特性にどのように影響するか？
RQ3誤った因果モデルのもとでも、反事後公平性およびデモグラフィックパラティーションをどの程度保証できるか？
RQ4ランダムフォレストのような標準的な機械学習アルゴリズムを用いて、本手法は実用的かつスケーラブルに実装可能か？
RQ5既存の事前処理型公平性手法と比較して、本手法は公平性および予測性能の両面で優れているか？

主な発見

本手法は、保護属性 A の子孫でない分位数集合に属する親変数から抽出された予測器に対して、デモグラフィックパラティーションを保証する。
分位数保存の検証不能な仮定のもと、本手法は個人レベルの反事後公平性を保証する。これは、保護属性への介入が予測分布に影響しないことを意味する。
仮定された因果モデルが誤っている場合でも、因果グラフ構造に応じて、集団レベルの公平性概念（例：デモグラフィックパラティーション、分離性）が保持されることがある。
UCI Adultデータセットを用いた実証的評価では、年齢および人種に基づくサンプリングバイアスを除去するためのサブサンプリング後、適応済みデータが顕著な性能損失なしに公平性の高い予測をもたらした。
Rパッケージ fairadapt を用いることで、本手法の実用的応用が可能であり、複数の公平性基準において競争力のある性能と公平性を示した。
本手法は、因果グラフ構造と整合するように公平性の選択を体系的に行えるため、感受性の高い分野における公平性基準の合意形成のためのフレームワークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。