[논문 리뷰] An Empirical Analysis of Fairness Notions under Differential Privacy
논문은 DP-SGD로 최적화된 모델 아키텍처 선택이 공정성 개념(인구통계학적 평등, 동등한 오차, 예측적 평등)에 미치는 영향을 실제 공정성 데이터셋에서 실증적으로 연구하여 DP가 격차를 감소시키거나 공정성에 미미한 영향을 주면서 기대치를 유지할 수 있음을 발견했다.
Recent works have shown that selecting an optimal model architecture suited to the differential privacy setting is necessary to achieve the best possible utility for a given privacy budget using differentially private stochastic gradient descent (DP-SGD)(Tramer and Boneh 2020; Cheng et al. 2022). In light of these findings, we empirically analyse how different fairness notions, belonging to distinct classes of statistical fairness criteria (independence, separation and sufficiency), are impacted when one selects a model architecture suitable for DP-SGD, optimized for utility. Using standard datasets from ML fairness literature, we show using a rigorous experimental protocol, that by selecting the optimal model architecture for DP-SGD, the differences across groups concerning the relevant fairness metrics (demographic parity, equalized odds and predictive parity) more often decrease or are negligibly impacted, compared to the non-private baseline, for which optimal model architecture has also been selected to maximize utility. These findings challenge the understanding that differential privacy will necessarily exacerbate unfairness in deep learning models trained on biased datasets.
연구 동기 및 목표
- DP-SGD가 보호 특성을 가진 데이터셋에서 공정성 개념에 미치는 영향을 조사한다.
- 최적의 DP 인지 아키텍처가 그룹 격차를 완화하거나 악화시키는지 평가한다.
- 私有 training과 비사적 training에서의 공정성 지표를 유용성(ROC AUC)을 극대화하며 비교한다.
- ML 공정성 연구에서 공용된 데이터셋을 사용하고 보호 그룹 및 교차 그룹이 다수 존재하는 데이터셋을 사용한다.
제안 방법
- DP-SGD를 사용하고 포괄적 하이퍼파라미터 검색으로 ROC AUC를 극대화하도록 구성된 구성 가능 피드포워드 네트워크를 구성한다.
- 5겹 교차검증과 홀드아웃 테스트 세트를 평가한다.
- Baseline+DP 및 Best DP Model 설정에 대해 전체 프라이버시 예산이 대략 epsilon = 27인 DP-SGD를 적용한다.
- 대립되는 클래스에서 세 가지 공정성 개념(인구통계학적 평등, 분리, 충분성)을 평가한다.
- 보호 속성의 모든 하위그룹 교차에서 격차를 분석한다.
- 설정당 10번의 학습 실행의 평균 ± 표준편차로 결과를 보고한다.
실험 결과
연구 질문
- RQ1DP-SGD로 최적화된 아키텍처를 선택하는 것이 비사적 Baseline에 비해 공정성 격차를 감소시키는가?
- RQ2최적화된 아키텍처를 가진 DP-SGD 모델이 비사적 모델에 비해 유용성을 유지하거나 향상시키면서 공정성에 다른 영향을 미치는가?
- RQ3다수의 실제 데이터셋에서 차등 프라이버시 하에 인구통계학적 평등, 동등한 오차, 예측적 평등의 격차가 어떻게 나타나는가?
주요 결과
| 데이터셋 | 전체 AUC (Baseline) | 전체 AUC (Baseline+DP) | 전체 AUC (Best DP Model) | AUC 차이 (Baseline vs Best DP) | 인구통계학적 평등 차이 (Baseline) | 인구통계학적 평등 차이 (Best DP Model) | 동등한 오차 차이 (Baseline) | 동등한 오차 차이 (Best DP Model) | 정밀도 차이 (Baseline) | 정밀도 차이 (Best DP Model) |
|---|---|---|---|---|---|---|---|---|---|---|
| ACS 고용 | 0.8837 ± 0.0011 | 0.8110 ± 0.0062 | 0.8702 ± 0.0013 | 0.3401 ± 0.0875 | 0.4383 ± 0.0805 | 0.3154 ± 0.0359 | 0.5884 ± 0.1360 | 0.2874 ± 0.0534 | 0.5534 ± 0.0998 | 0.2968 ± 0.0674 |
| ACS 소득 | 0.8878 ± 0.0011 | 0.8155 ± 0.0045 | 0.8820 ± 0.0008 | 0.2546 ± 0.0569 | 0.4223 ± 0.0613 | 0.2556 ± 0.0490 | 0.4360 ± 0.0780 | 0.3756 ± 0.0019 | 0.3550 ± 0.0518 | 0.4032 ± 0.0271 |
| LSAC | 0.8343 ± 0.0029 | 0.7755 ± 0.0125 | 0.7962 ± 0.0077 | 0.0435 ± 0.0056 | 0.3064 ± 0.0653 | 0.1687 ± 0.0151 | 0.2548 ± 0.0862 | 0.1975 ± 0.0722 | 0.1688 ± 0.0485 | 0.2197 ± 0.0082 |
| 성인 | 0.9056 ± 0.0011 | 0.8476 ± 0.0073 | 0.9005 ± 0.0009 | 0.1264 ± 0.0249 | 0.2750 ± 0.0155 | 0.2375 ± 0.0207 | 0.7845 ± 0.0492 | 0.8000 ± 0.0000 | 0.9400 ± 0.0966 | 0.8000 ± 0.000 |
| COMPAS | 0.6895 ± 0.0041 | 0.5349 ± 0.0359 | 0.6863 ± 0.0030 | 0.1162 ± 0.0273 | 0.5101 ± 0.0209 | 0.3694 ± 0.0230 | 0.5592 ± 0.0476 | 0.3726 ± 0.0375 | 0.3347 ± 0.0749 | 0.3168 ± 0.0467 |
- Best DP 아키텍처는 비사적 Baseline에 비해 여러 공정성 개념에 대한 격차를 종종 감소시킨다.
- DP-SGD는 Baseline에 비해 유용성(ROC AUC)을 유지하거나 근접하게 달성하면서 여러 데이터셋에서 그룹 격차를 완화한다.
- 데이터셋 전반에 걸쳐(ACS Employment, ACS Income, LSAC, Adult, COMPAS) DP로 학습된 모델은 비사적 대응 대비 공정성 차이가 더 낮거나 비슷한 경향을 자주 보인다.
- Baseline+DP(비최적 DP)의 경우 일반적으로 유용성과 공정성 지표 모두를 저하시키는 반면 Best DP Model(DP + 아키텍처 검색)은 공정성 격차를 개선한다.
- ACS Employment와 ACS Income 데이터셋에서의 격차 감소가 크게 나타나며; Adult는 DP 하에서의 격차 감소가 제한적이지만 악화하지는 않으며; COMPAS는 다양한 패턴으로 민감하게 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.