QUICK REVIEW

[論文レビュー] Provably Fair Representations

Daniel McNamara, Cheng Soon Ong|arXiv (Cornell University)|Oct 12, 2017

Ethics and Social Impacts of AI参考文献 16被引用数 34

ひとこと要約

本稿は、データ前処理アプローチを通じて、グループの公平性、個人の公平性、ターゲットタスクの有用性を保証する、証明可能に公平な表現学習フレームワークを提案する。感度情報の除去を図る表現関数を学習することで、予測の有用性を維持しつつ、データプロバイダー、ユーザー、規制機関を分離したガバナンスモデルにおける誤解のコストに関する理論的保証と境界を提供する。

ABSTRACT

Machine learning systems are increasingly used to make decisions about people's lives, such as whether to give someone a loan or whether to interview someone for a job. This has led to considerable interest in making such machine learning systems fair. One approach is to transform the input data used by the algorithm. This can be achieved by passing each input data point through a representation function prior to its use in training or testing. Techniques for learning such representation functions from data have been successful empirically, but typically lack theoretical fairness guarantees. We show that it is possible to prove that a representation function is fair according to common measures of both group and individual fairness, as well as useful with respect to a target task. These provable properties can be used in a governance model involving a data producer, a data user and a data regulator, where there is a separation of concerns between fairness and target task utility to ensure transparency and prevent perverse incentives. We formally define the 'cost of mistrust' of using this model compared to the setting where there is a single trusted party, and provide bounds on this cost in particular cases. We present a practical approach to learning fair representation functions and apply it to financial and criminal justice datasets. We evaluate the fairness and utility of these representation functions using measures motivated by our theoretical results.

研究の動機と目的

ローン承認や雇用意思決定などの、個人に関する意思決定を行う機械学習システムにおける公平性を、予測の有用性を損なわずに確保すること。
データプロバイダー、ユーザー、規制機関を分離するガバナンスモデルを形式化し、歪んだインcentiveを低減し、透明性を向上させること。
学習された表現関数におけるグループ公平性、個人公平性、ターゲットタスクの有用性に関する理論的保証を提供すること。
公平性と有用性を分離した場合の「誤解のコスト」——感度変数への完全なアクセスが可能な信頼できる設定と比較した際の性能低下——を定量化すること。
公平な表現を学習する実用的手法を開発し、金融および刑事司法のデータセットで検証すること。

提案手法

本手法は、入力特徴Xをクリーニングされた表現X_fに写像する表現関数f(x)を用い、感度情報Sを除去しながら、ターゲットYの予測力を維持する。
統計的平等（SP）および等しい機会（EO）によるグループ公平性の証明を形式化し、入力の摂動に対する不変性メトリクス（IU）を用いた個人公平性を定式化する。
リプシッツ連続性および条件付き独立性の仮定を用いて理論的境界を導出し、公平性と有用性のトレードオフが定量可能であることを示す。
公平性と有用性を同時に最適化する実用的学習アルゴリズムを提案し、誤解のコストに関する理論的保証を提供する。
リスク分解を用いる：R_Y(Ŷ_f) = R_Y(Ŷ) + E[d(x, f(x))] × (l_Y + λl_S) であり、表現誤差が有用性損失にどのように関連するかを示す。
理論的結果は、全確率の法則、ベイズの定理、三角不等式を用いて導出され、公平性および有用性メトリクスの境界を求める。

実験結果

リサーチクエスチョン

RQ1統計的平等（SP）や等しい機会（EO）といったグループ公平性の指標に関して、表現関数f(x)が証明可能に公平であると言えるか。
RQ2入力が類似している場合に類似した意思決定がなされるという個人公平性の定義に従い、表現関数がその性質をどの程度保持しているか。
RQ3公平性と有用性の問題を分離した場合、ターゲットタスク（例：ローンデフォルト予測）におけるどの程度の有用性が失われるか。
RQ4データユーザーが感度変数にアクセスできない状況における、理論的誤解のコスト——信頼できる設定（感度変数への完全アクセスあり）と比較した性能低下——は何か。
RQ5公平な表現を学習する実用的アルゴリズムを設計でき、公平性および有用性に関する保証を理論的に得られるか。

主な発見

本稿は、表現関数f(x)が、SPおよびDIで測定されるように、感度グループ間の意思決定レートの乖離を低減することで、グループ公平性を向上させられることを証明した。
個人公平性は表現関数下でも保持され、意思決定の不変性に関する境界が与えられる：IU_D,d_ε(Ŷ_f, X) ≤ 2δ であり、類似した入力が類似した意思決定を受けることを保証する。
公平性の有用性コストは、E[d(x, f(x))] × (l_Y + λl_S) で境界づけられており、表現誤差がターゲットタスクのパフォーマンスに直接影響することを示している。
誤解のコスト——公平性と有用性を分離した場合の性能低下——は境界づけられており、定量可能である。特に、元のモデルŶ*が個人的に公平である場合に顕著である。
金融および刑事司法のデータセットにおける実験的評価により、本手法が最小限の有用性損失で高い公平性を達成できることを確認し、理論的境界の妥当性を検証した。
理論的分析により、元のモデルŶ*が個人的に公平である場合、表現ベースのモデルŶ_fは摂動境界εまでこの性質を継承することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。