QUICK REVIEW

[논문 리뷰] Differentially Private Fair Learning

Matthew Jagielski, Michael Kearns|arXiv (Cornell University)|2018. 12. 06.

Privacy-Preserving Technologies in Data참고 문헌 15인용 수 18

한 줄 요약

이 논문은 민감한 속성에 대한 추론 공격으로부터 보호하면서 동시에 등수화된 오dds를 통한 공정성 보장을 보장하는 두 가지 차별적 비밀성 학습 알고리즘을 제안한다. 첫 번째 방법은 테스트 시기 동안 그룹 소속 정보가 필요로 하는 비밀성 후처리 기반 접근법이며, 두 번째 방법은 그러한 접근을 피하는 비밀성 내처리 기반 접근법을 사용한다. 이는 핵심적인 상충 관계를 드러낸다: 테스트 시기 동안 민감한 속성에 대한 액세스는 특히 소규모 데이터셋에서 차별적 비밀성 하에서 더 나은 비밀성-공정성-정확도 균형을 가능하게 한다.

ABSTRACT

Motivated by settings in which predictive models may be required to be non-discriminatory with respect to certain attributes (such as race), but even collecting the sensitive attribute may be forbidden or restricted, we initiate the study of fair learning under the constraint of differential privacy. We design two learning algorithms that simultaneously promise differential privacy and equalized odds, a 'fairness' condition that corresponds to equalizing false positive and negative rates across protected groups. Our first algorithm is a private implementation of the equalized odds post-processing approach of [Hardt et al., 2016]. This algorithm is appealingly simple, but must be able to use protected group membership explicitly at test time, which can be viewed as a form of 'disparate treatment'. Our second algorithm is a differentially private version of the oracle-efficient in-processing approach of [Agarwal et al., 2018] that can be used to find the optimal fair classifier, given access to a subroutine that can solve the original (not necessarily fair) learning problem. This algorithm is more complex but need not have access to protected group membership at test time. We identify new tradeoffs between fairness, accuracy, and privacy that emerge only when requiring all three properties, and show that these tradeoffs can be milder if group membership may be used at test time. We conclude with a brief experimental evaluation.

연구 동기 및 목표

법적 또는 윤리적 제약으로 인해 훈련 중에 민감한 속성(예: 인종)을 사용할 수 없을 때도 공정하고 비밀스러운 기계학습 모델을 구축하는 데 도전하는 것.
차별적 비밀성, 공정성(특히 등수화된 오dds) 및 예측 정확도 간의 상호작용을 모델 학습 과정에서 탐색하는 것.
테스트 시기 동안 민감한 속성에 대한 액세스가 필요로 하지 않는 알고리즘을 설계하여 공정성과 비밀성을 보장하는 것, 가능한 한.
다양한 알고리즘적 접근법 하에서 비밀성(에프릴론), 공정성(공정성 위반), 정확도(오차) 간의 상충 관계를 경험적으로 평가하는 것.

제안 방법

Hardt 등(2016)의 등수화된 오dds 후처리 방법의 차별적 비밀성 버전을 제안하며, 이는 테스트 시기 동안 민감한 그룹 소속 정보를 사용하여 모델 출력을 조정한다.
Agarwal 등(2018)의 기반으로 한 비밀성 내처리 알고리즘을 구현하며, 라플라스 노이즈를 사용한 비용 감수성 분류 오라클을 통해 차별적 비밀성을 보장한다.
중간 통계적 추정치(예: (X^T X)^{-1} X^T C_b)에 캘리브레이션된 라플라스 노이즈를 추가하여 훈련 과정에 차별적 비밀성을 적용함으로써 민감한 속성 정보를 보호한다.
후처리 방법에서 기저 분류기로 로지스틱 회귀를 사용하고, 내처리 방법에서는 비용 감수성 학습을 위한 회귀 기반 선형 예측기 사용.
내처리 방법에 대해 비밀성 오라클을 사용하며, 이는 학습자가 원래(비공정) 학습 문제를 해결하는 비밀성 서브루틴에 액세스한다.
두 알고리즘 모두 Communities and Crime 데이터셋에서 평가되며, 다양한 비밀성 파rameter(에프릴론) 하에서 오차와 공정성 위반의 파레토 경계를 측정한다.

실험 결과

연구 질문

RQ1민감한 속성이 훈련 중에 이용 가능하지 않을 때도 차별적 비밀성과 공정성(등수화된 오dds)을 동시에 만족하는 기계학습 알고리즘을 설계할 수 있는가?
RQ2차별적 비밀성과 공정성을 강제할 경우 비밀성(에프릴론), 공정성(공정성 위반), 정확도(오차) 간의 상충 관계는 어떻게 되는가?
RQ3테스트 시기 동안 민감한 속성에 대한 액세스가 요구될 경우, 차별적 비밀성 하에서 달성 가능한 비밀성-공정성-정확도 균형이 향상되는가?
RQ4특히 소규모 데이터셋에서, 후처리와 내처리 접근법의 성능 특성이 차별적 비밀성 하에서 어떻게 다를까?

주요 결과

소규모 데이터셋(m ≈ 2K)에서 DP-후처리 알고리즘이 더 나은 비밀성-공정성-정확도 균형을 달성한다. 이는 내처리 방법이 높은 비밀성 비용으로 인해 어려움을 겪기 때문이다.
DP-오라클-러닝 알고리즘은 후처리 방법과 동일한 파레토 곡선을 달성할 수 있지만, 소규모 데이터셋에서는 비현실적으로 높은 에프릴론 값에서만 가능하며, 이는 확장성 문제를 시사한다.
데이터셋을 10배로 확대하면(m ≈ 20K) 내처리 방법에서 의미 있는 비밀성 파rameter(에프릴론)를 달성할 수 있으며, 이는 데이터셋 크기가 성능에 결정적인 영향을 미친다는 것을 나타낸다.
테스트 시기 동안 민감한 속성을 사용하지 않도록 요구하는 조건은 특히 차별적 비밀성과 병행될 경우 좋은 비밀성-공정성-정확도 균형을 달성하는 데 상당한 부담을 가한다.
후처리 방법은 민감한 속성에 대한 테스트 시기 액세스가 필요로 하지만, 소규모 데이터셋에서 내처리 방법보다 성능이 뛰어나며, 이는 더 나은 비밀성-정확도-공정성 균형을 위해 차별적 대우가 필수적일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.