[論文レビュー] Optimized Data Pre-Processing for Discrimination Prevention
本稿では、監視付き学習における差別のの低減、個々のデータサンプルの歪みの制限、およびデータの有用性の維持を同時に達成するための凸最適化フレームワークを提案する。公平性を確率的制約を通じてグループ公平性、個人公平性、データ有用性のトレードオフとして定式化することにより、実世界のデータセット(犯罪再犯データを含む)において、証明可能な一般化保証を伴うバランスの取れた公平性を達成する。
Non-discrimination is a recognized objective in algorithmic decision making. In this paper, we introduce a novel probabilistic formulation of data pre-processing for reducing discrimination. We propose a convex optimization for learning a data transformation with three goals: controlling discrimination, limiting distortion in individual data samples, and preserving utility. We characterize the impact of limited sample size in accomplishing this objective, and apply two instances of the proposed optimization to datasets, including one on real-world criminal recidivism. The results demonstrate that all three criteria can be simultaneously achieved and also reveal interesting patterns of bias in American society.
研究の動機と目的
- グループ公平性を制御する原理的で一貫した前処理手法の開発により、機械学習における間接的差別を是正すること。
- 下流のモデリングに適したデータの有用性を保ちながら、個々のデータサンプルへの歪みを最小限に抑えること。
- 公平性、有用性、個人公平性を統合的に扱う1つの定式化に統一された確率的最適化フレームワークを提供すること。
- 標本サイズの制限が前処理における公平性と有用性のトレードオフに与える影響を分析すること。
- 実世界のデータセット(犯罪再犯データを含む)を用いた実証的検証を通じて、公平性、有用性、低歪みの同時達成を示すこと。
提案手法
- 差別の制御、データの有用性、個々の歪みのバランスをとる凸最適化問題としてデータ前処理を定式化する。
- KL発散とピンスカーの不等式を用いて、元のデータ分布と変換後データ分布の統計的差を制限する。
- 指数型分布族による確率的変換を導入し、Radon-Nikodym微分をラグランジュ乗数αでパラメータ化する。
- 変換後確率と元の確率の比に制約を課すことにより、各サンプルごとの歪みが有界であることを保証する。
- 集中不等式(Csiszár & Shields より)を用いて、公平性および有用性の一般化に関する高確率的境界を導出する。
- 条件付き出力分布の目標分布からの逸脱に関する理論的境界を導出し、標本サイズが増加するにつれて確率的に収束することを示す。
実験結果
リサーチクエスチョン
- RQ1統合的前処理フレームワークは、グループレベルの差別、データの有用性、個々のレベルの歪みを同時に制御可能か?
- RQ2標本サイズが制限されている場合、提案フレームワークにおける公平性および有用性の一般化にどのような影響を与えるか?
- RQ3最適化パラメータと得られる公平性・有用性・歪みのトレードオフとの間の理論的関係は何か?
- RQ4本手法は実世界のデータ、特に犯罪再犯のような間接的差別の事例において、どのように性能を発揮するか?
- RQ5確率的制約を通じてグループ公平性を達成しつつ、個人公平性を維持できるようにフレームワークを拡張可能か?
主な発見
- 提案された最適化フレームワークは、実世界の犯罪再犯データを用いた実証により、差別の低減、データの有用性の維持、個々の歪みの制限を同時に達成した。
- 保護属性を直接使用しない状況でも、保護群間で出力分布が類似するようにすることで、グループ公平性を達成した。
- 高い確率(1−β)で、変換後データの条件付き出力分布は目標分布に近く、逸脱は O(√(log n / n)) で有界である。
- フレームワークは一般化に関する理論的保証を提供し、標本サイズが増加するにつれて公平性と有用性が高確率で維持されることを示した。
- 実証的結果から、米国社会における従来見えなかった間接的バイアスのパターンが明らかになった。
- 個々のサンプルの歪み制約を明示的にモデル化することで、先行する前処理手法を上回る性能を発揮した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。