QUICK REVIEW

[논문 리뷰] Robust Optimization for Fairness with Noisy Protected Groups

Serena Wang, Wenshuo Guo|arXiv (Cornell University)|2020. 02. 21.

Ethics and Social Impacts of AI참고 문헌 52인용 수 41

한 줄 요약

논문은 보호 그룹 레이블이 노이즈가 있을 때 그룹 기반 공정성을 어떻게 보장할지 분석하고, 두 가지 강건 최적화 접근법(DRO와 소프트 그룹 할당)을 제시한다. 이들은 실제 그룹에서의 공정성을 보장하면서 학습 손실을 최소화한다. 경험적 사례 연구는 이러한 방법이 순진한 접근법보다 더 우수한 성능을 보이며, 특히 노이즈가 증가함에 따라 차이가 커지지만 순진한 방법보다 더 높은 오류율을 감수한다.

ABSTRACT

Many existing fairness criteria for machine learning involve equalizing some metric across protected groups such as race or gender. However, practitioners trying to audit or enforce such group-based criteria can easily face the problem of noisy or biased protected group information. First, we study the consequences of naively relying on noisy protected group labels: we provide an upper bound on the fairness violations on the true groups G when the fairness criteria are satisfied on noisy groups $\hat{G}$. Second, we introduce two new approaches using robust optimization that, unlike the naive approach of only relying on $\hat{G}$, are guaranteed to satisfy fairness criteria on the true protected groups G while minimizing a training objective. We provide theoretical guarantees that one such approach converges to an optimal feasible solution. Using two case studies, we show empirically that the robust approaches achieve better true group fairness guarantees than the naive approach.

연구 동기 및 목표

노이즈가 있는 보호 그룹에서의 이진 분류 문제에서 공정성의 동기를 부여하고 형식을 formalize 한다.
노이즈가 있는 그룹만을 사용하는 순진한 접근의 한계를 보이는 이론적 경계(제한 사항)를 제공한다.
실제 그룹에서의 공정성을 보장하면서 손실을 최적화하는 두 가지 강건 최적화 프레임워크(DRO와 소프트 그룹 할당)를 개발한다.
적어도 한 가지 접근 방법에 대한 수렴 보장과 구현을 위한 실용적 알고리즘을 제공한다.
다양한 노이즈 수준에서 UCI 데이터셋에 대해 순진한 방법과 강건한 방법을 실증적으로 비교한다.

제안 방법

학습 중 실제 그룹 G와 노이즈가 있는 Ĝ를 사용하여 공정성 제약 학습 문제를 형식화한다.
Ĝ에 대해 공정성을 강제하는 것이 TV 거리의 조건부 분포 간의 차이가 유한할 때 G에 대한 위반이 유한하다는 것을 보인다(정리 1).
Ĝ-분포를 중심으로 한 TV-구-공간에서 최대 경우의 공정성 위반을 제약하는 Distributionally Robust Optimization(DRO)을 도입하여 모든 실제 그룹에 대해 g_j(θ) ≤ 0를 보장한다.
노이즈 모델 P(G=j|Ĝ=k)를 보조 데이터로부터 추정하고 제약을 max_w∈W(θ) g_j(θ,w) ≤ 0로 바꾼 소프트 그룹 할당(레이블이 소프트한 강건 공정성)을 제안하고 라그랑주 방법으로 해결한다.
이상적인 알고리즘(수렴 보장)과 소프트 할당 접근법의 실용적 그래디언트 기반 알고리즘을 모두 제공한다.
손실 함수, 선형계획 하위 문제, 수렴 특성 등 실무적 고려사항을 논의한다.

실험 결과

연구 질문

RQ1노이즈가 있는 보호 그룹 Ĝ에서 학습된 공정성 제약이 실제 그룹 G의 공정성 제약과 어떻게 관련되는가?
RQ2보호 그룹 레이블이 노이즈일 때 실제 그룹 G에 대한 공정성을 보장할 수 있는가?
RQ3G와 Ĝ 간의 노이즈 모델에 대한 지식을 어떻게 활용하여 순진한 접근보다 실제 그룹 공정성을 더 촘촘하게 보장할 수 있는가?
RQ4다양한 노이즈 수준에서 강건한 공정성 방법을 사용할 때 정확도(오류율)의 트레이드오프는 어떻게 나타나는가?
RQ5DRO와 소프트 그룹 할당 접근법은 현실 설정 하에서 유효하고 최적의 해로 수렴하는가?

주요 결과

노이즈가 있는 그룹 Ĝ에 대해 공정성을 강제하면, p_j와 p̂_j 간의 전제변화 총변동 거리(TV)가 유한한 경우 실제 그룹 G에 대한 공정성 위반이 한계적으로 제한된다(정리 1).
Ĝ만 사용하는 순진한 접근은 노이즈에 따라 증가하는 G의 공정성 위반으로 이어질 수 있으며, 강건한 방법은 이 위험을 완화한다.
실제 그룹 G에 대해 공정성을 보장하면서 학습 손실을 최적화하는 두 가지 강건한 접근은 (i) 분포적으로 강건한 최적화(DRO)와 (ii) 노이즈 모델 P(G=j|Ĝ)를 사용하는 소프트 그룹 할당이다.
DRO는 Ĝ-분포를 둘러싼 TV-거리 기반의 불확실성 집합을 통해 보수적이면서도 원칙적인 한계를 제공하고, 소프트 그룹 할당은 덜 보수적이면서도 모델 인식이 가능한 대안을 제시한다.
실험적으로 Adult(기회균등)와 Credit(동등화된 오차) 데이터 세트에서 강건한 방법은 노이즈 수준에 따라 평균적으로 실제-그룹 공정성을 만족시키지만 순진한 방법보다 테스트 오차가 더 크며, SA가 종종 DRO보다 오히려 적은 오차를 보인다.
DRO는 특히 노이즈가 증가할수록 소프트 할당보다 보수적(오류율이 더 큼) 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.