QUICK REVIEW

[論文レビュー] Differentially Private Fair Learning

Matthew Jagielski, Michael Kearns|arXiv (Cornell University)|Dec 6, 2018

Privacy-Preserving Technologies in Data参考文献 15被引用数 18

ひとこと要約

本稿では、差分プライバシーと公平性（等しいオッズ）を同時に満たす2つの異なるプライバシー保護学習アルゴリズムを提案する。1つ目の手法は、テスト時におけるグループメンバーシップの情報が必要なプライベート後処理を採用する。2つ目の手法は、このようなアクセスを回避するプライベートインプロセッシングアプローチを採用する。この二つの手法の比較により、明らかになった重要なトレードオフがある：差分プライバシー下で、テスト時に保護属性にアクセスできると、特に小規模データセットにおいて、プライバシー・公平性・精度のバランスをより良く実現できる。

ABSTRACT

Motivated by settings in which predictive models may be required to be non-discriminatory with respect to certain attributes (such as race), but even collecting the sensitive attribute may be forbidden or restricted, we initiate the study of fair learning under the constraint of differential privacy. We design two learning algorithms that simultaneously promise differential privacy and equalized odds, a 'fairness' condition that corresponds to equalizing false positive and negative rates across protected groups. Our first algorithm is a private implementation of the equalized odds post-processing approach of [Hardt et al., 2016]. This algorithm is appealingly simple, but must be able to use protected group membership explicitly at test time, which can be viewed as a form of 'disparate treatment'. Our second algorithm is a differentially private version of the oracle-efficient in-processing approach of [Agarwal et al., 2018] that can be used to find the optimal fair classifier, given access to a subroutine that can solve the original (not necessarily fair) learning problem. This algorithm is more complex but need not have access to protected group membership at test time. We identify new tradeoffs between fairness, accuracy, and privacy that emerge only when requiring all three properties, and show that these tradeoffs can be milder if group membership may be used at test time. We conclude with a brief experimental evaluation.

研究の動機と目的

法的または倫理的制約により、訓練時にレースなどの感受性属性を用いることができない状況において、公平かつプライベートな機械学習モデルを構築する課題に対処すること。
差分プライバシー、公平性（特に等しいオッズ）および予測精度の間の相互作用を、モデル学習の文脈で探求すること。
可能な限り、テスト時に保護属性へのアクセスを必要としないアルゴリズムを設計し、公平性とプライバシーを保証すること。
異なるアルゴリズム的手法の下で、プライバシー（epsilon）、公平性（公平性違反）、精度（誤差）のトレードオフを実証的に評価すること。

提案手法

Hardtら（2016）の等しいオッズ後処理法の差分プライバシー版を提案し、テスト時に保護群メンバーシップを用いてモデル出力を調整する。
Agarwal ら（2018）に基づくプライベートインプロセッシングアルゴリズムを実装し、ラプラスノイズを用いたコストセンシティブ分類オラクルを用いて差分プライバシーを確保する。
訓練プロセスに差分プライバシーを適用するため、中間統計推定値（例：(X^T X)^{-1} X^T C_b）に適切にスケーリングされたラプラスノイズを追加し、感受性属性情報の保護を図る。
後処理法ではロジスティック回帰をベース分類器として用い、インプロセッシング法ではコストセンシティブ学習における回帰ベースの線形予測子を用いる。
インプロセッシング法ではプライベートオラクルを採用し、学習者が元の（非公平な）学習問題を解くプライベートサブルーチンにアクセスできるようにする。
両手法を Communities and Crime データセットで評価し、プライバシーパラメータ（epsilon）を変化させた際の誤差と公平性違反のパレートフロンティアを測定する。

実験結果

リサーチクエスチョン

RQ1訓練時に保護属性が利用不可である状況でも、差分プライバシーと公平性（等しいオッズ）を同時に満たす機械学習アルゴリズムを設計できるか？
RQ2差分プライバシーと公平性を同時に強制する場合、プライバシー（epsilon）、公平性（公平性違反）、精度（誤差）の間のトレードオフはどのように変化するか？
RQ3テスト時に保護属性へのアクセスを要求することで、差分プライバシー下での達成可能なプライバシー・公平性・精度のトレードオフが向上するか？
RQ4特に小規模データセットにおいて、後処理法とインプロセッシング法の性能特性にはどのような違いがあるか？

主な発見

小規模データセット（m ≈ 2K）では、DP後処理法が、インプロセッシング法が高プライバシーコストに苦しむため、より優れたプライバシー・公平性・精度のトレードオフを達成する。
DPオラクル・ラーナー法は、後処理法と同等のパレート曲線を達成可能であるが、小規模データセットでは非現実的な高いepsilon値を要するため、スケーラビリティの問題が示唆される。
データセットを10倍にアップサンプリング（m ≈ 20K）することで、インプロセッシング法に意味のあるプライバシーパラメータ（epsilon）を達成可能となることが示され、データセットサイズが性能に顕著に影響することを示している。
テスト時に保護属性の使用を回避するという要件は、差分プライバシーと併用する際、良好なプライバシー・公平性・精度のトレードオフを達成する上で顕著な負担をもたらす。
後処理法はテスト時に保護属性へのアクセスを必要としているが、小規模データセットではインプロセッシング法を上回る性能を示しており、より良いプライバシー・精度・公平性のバランスを実現するには、差別の的取り扱いが避けがたいコストである可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。