[論文レビュー] Fairness and Missing Values
本論文は、欠損データと機械学習における公平性が深く結びついていると主張し、公平性の影響を考慮せずに欠損値を破棄するか補完するという一般的な慣習に挑戦する。欠損値を含む行はしばしば完全な行よりも公平であることが示され、特にランダムフォレストでは、欠損値の補完(imputation)が削除よりも優れた公平性と性能のトレードオフをもたらすことが判明している。
The causes underlying unfair decision making are complex, being internalised in different ways by decision makers, other actors dealing with data and models, and ultimately by the individuals being affected by these decisions. One frequent manifestation of all these latent causes arises in the form of missing values: protected groups are more reluctant to give information that could be used against them, delicate information for some groups can be erased by human operators, or data acquisition may simply be less complete and systematic for minority groups. As a result, missing values and bias in data are two phenomena that are tightly coupled. However, most recent techniques, libraries and experimental results dealing with fairness in machine learning have simply ignored missing data. In this paper, we claim that fairness research should not miss the opportunity to deal properly with missing data. To support this claim, (1) we analyse the sources of missing data and bias, and we map the common causes, (2) we find that rows containing missing values are usually fairer than the rest, which should not be treated as the uncomfortable ugly data that different techniques and libraries get rid of at the first occasion, and (3) we study the trade-off between performance and fairness when the rows with missing values are used (either because the technique deals with them directly or by imputation methods). We end the paper with a series of recommended procedures about what to do with missing data when aiming for fair decision making.
研究の動機と目的
- 欠損データとアルゴリズムの公平性の関係を調査すること。
- 公平性を考慮せずに欠損値を削除または補完するという標準的な慣習に挑戦すること。
- 欠損値を含む行が完全な行よりも公平かどうかを評価すること。
- 補完と削除を比較した際の、公平性と性能のトレードオフを分析すること。
- 公平性に配慮した機械学習における欠損データの取り扱いに向けた実行可能な提言を提供すること。
提案手法
- 公平性の問題と欠損値を有する実世界の3つのデータセット(Adult, Recidivism, Titanic)を分析する。
- 欠損データの原因を、プライバシー懸念や制度的下位互換性といった偏見の根本的要因にマッピングする。
- データサブセット間の公平性を比較するために、主に統計的同一性差(SPD)を公平性指標として用いる。
- 削除済みおよび補完済みデータセットに対して、複数のモデル(DT, LR, NN, RF, SV)を適用し、公平性と性能のトレードオフを評価する。
- 精度と公平性のトレードオフを可視化するために、異なる補完および削除戦略におけるパレートフロントを構築する。
- 実証的結果を文脈づけるために、公平性と性能の空間における理論的上限となる八角形(bounding octagon)を導出する。
実験結果
リサーチクエスチョン
- RQ1欠損値と公平性は因果的に関連しているか。もしそうなら、その関係はどのようなものか?
- RQ2欠損値を含む行は、完全な行と比較して、公平性が高いか低いか?
- RQ3欠損値を含む行を削除することはバイアスを拡大するか。補完はバイアスを軽減するか、悪化させるか?
- RQ4異なる補完手法は、予測モデルにおける公平性と性能のトレードオフにどのように影響するか?
- RQ5公平性が重要な機械学習アプリケーションにおいて、欠損データの取り扱いに推奨される実務は何か?
主な発見
- Adult, Recidivism, Titanic データセットにおいて、欠損値を含む行は、常に完全な行よりも公平であることが確認され、特に統計的同一性差(SPD)の観点で顕著である。
- 欠損値を含む行の削除は、常に公平性を悪化させ、とくに保護属性に関連する非無視的欠損(non-ignorable missingness)を示すデータセットでは顕著である。
- 補完は削除よりも公平性を維持または向上させる傾向にあり、特にランダムフォレストでは精度と公平性のバランスが最も良好である。
- Adult データセットでは、すべての補完手法が完璧なモデルに対してバイアスを低減した。これは、補完が不正を緩和する手助けになると示唆している。
- 補完済みデータから構築されたパレートフロントは、削除済みデータからのものよりも支配的であり、補完がより広い範囲の公平性と性能の妥当な妥協を可能にしていることを示している。
- ランダムフォレストは、削除から完璧なモデルへの公平性と性能の空間におけるほぼ直線的な経路を示しており、補完を用いる際の頑健さと安定性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。