[논문 리뷰] FAIR: Fair Adversarial Instance Re-weighting
FAIR는 적대적 훈련과 인스턴스 재가중을 통합하여 분류 모델의 공정성을 향상시키는 새로운 딥러닝 프레임워크를 제안한다. 적대적 과정를 통해 인스턴스별 가중치를 학습함으로써 FAIR는 최신 기법들보다 정확도와 공정성의 균형을 더 잘 달성하면서도 각 인스턴스에 대한 해석 가능한 공정성 통찰을 제공한다.
With growing awareness of societal impact of artificial intelligence, fairness has become an important aspect of machine learning algorithms. The issue is that human biases towards certain groups of population, defined by sensitive features like race and gender, are introduced to the training data through data collection and labeling. Two important directions of fairness ensuring research have focused on (i) instance weighting in order to decrease the impact of more biased instances and (ii) adversarial training in order to construct data representations informative of the target variable, but uninformative of the sensitive attributes. In this paper we propose a Fair Adversarial Instance Re-weighting (FAIR) method, which uses adversarial training to learn instance weighting function that ensures fair predictions. Merging the two paradigms, it inherits desirable properties from both -- interpretability of reweighting and end-to-end trainability of adversarial training. We propose four different variants of the method and, among other things, demonstrate how the method can be cast in a fully probabilistic framework. Additionally, theoretical analysis of FAIR models' properties have been studied extensively. We compare FAIR models to 7 other related and state-of-the-art models and demonstrate that FAIR is able to achieve a better trade-off between accuracy and unfairness. To the best of our knowledge, this is the first model that merges reweighting and adversarial approaches by means of a weighting function that can provide interpretable information about fairness of individual instances.
연구 동기 및 목표
- 인종과 성별과 같은 민감한 속성에서 기인하는 편향을 완화함으로써 머신러닝에서의 공정성을 해결한다.
- 사전 처리 재가중 기법의 한계(작업 인식 부족)와 적대적 표현 학습의 한계(해석성 부족)를 극복한다.
- 해석 가능한 인스턴스 재가중과 적대적 훈련의 엔드 투 엔드 학습 가능성의 장점을 결합한 통합 프레임워크를 개발한다.
- 민감한 속성이 최종 예측에 영향을 주지 않는 경우에 대해 인스턴스별 공정성 기여도를 반영하는 개별 공정성 가중치를 학습함으로써 모델 수준의 해석 가능성을 제공한다.
- 다양한 실제 데이터셋에서 정확도 및 공정성 지표에서 최고의 성능을 입증한다.
제안 방법
- 가중치 네트워크, 민감한 속성 예측기, 타깃 레이블 예측기를 포함한 세 개의 네트워크 아키텍처를 제안한다.
- 특징 표현이 타깃 레이블을 예측하도록 하되 민감한 속성에 대해 정보를 주지 않도록 하는 적대적 훈련을 사용한다.
- 사용자 정의된 네 가지 변종을 도입한다: FAIR-scalar(비확률적 가중치), FAIR-Bernoulli, FAIR-betaSF, FAIR-betaREP(베르누이 및 베타 분포를 사용한 확률적 가중치).
- 확률적 변종에서 기울기 추정을 가능하게 하기 위해 스코어 함수 및 재구성 기법을 활용한다.
- 스코어 함수 기반 모델의 기울기 추정에서 분산을 줄이기 위해 기준 함수를 통합한다.
- 완전히 확률적 프레임워크로 변환하여 원칙적인 불확실성 모델링과 기대값 추정이 가능하도록 한다.
실험 결과
연구 질문
- RQ1적대적 훈련을 사용해 예측 성능을 희생시키지 않고도 공정성을 향상시키는 인스턴스 재가중 함수를 효과적으로 학습시킬 수 있는가?
- RQ2FAIR 프레임워크에서 초모수 α는 공정성과 모델 정확도 사이의 균형을 어떻게 조절하는가?
- RQ3학습된 인스턴스 가중치가 개별 예측의 공정성에 대한 해석 가능한 통찰을 어느 정도 제공할 수 있는가?
- RQ4베르누이 및 베타 분포를 사용한 확률적 공식화는 재가중 메커니즘의 안정성과 강건성에 어떻게 기여하는가?
- RQ5FAIR는 다양한 데이터셋에서 기존 최신 기법들보다 공정성 지표와 분류 정확도 양면에서 뛰어난 성능을 보일 수 있는가?
주요 결과
- FAIR는 독일 신용 및 재입원 데이터셋을 포함한 네 개의 실제 데이터셋에서 비교된 8종의 모델 중 정확도와 공정성의 최적 균형을 달성한다.
- FAIR-scalar 변종은 성별과 관계없이 안정된 고용, 외국인 근로자 신분이 아니며 다른 빚 갚는 이가 없는 등 균형 잡힌 속성을 가진 '공정한' 인스턴스를 성공적으로 식별한다.
- 초모수 α가 감소할수록 모델은 편향될 수 있지만 예측력이 있는 인스턴스를 점점 기각하며, 민감한 속성에 대한 AUC는 감소하지만 타깃 AUC는 유지된다.
- 이론적 분석을 통해 α가 공정성-정확도 균형을 조절하며, 높은 α 값은 공정성을 우선시하고 낮은 값은 예측 성능을 우선시함을 확인한다.
- 실험 결과 FAIR-scalar는 민감한 속성(예: 성별)이 최종 예측에 영향을 주지 않는 경우에 대해 인스턴스를 정확히 '공정'으로 표기함으로써 해석 가능성을 입증한다.
- FAIR-Bernoulli 및 FAIR-betaSF에서 기준 함수의 사용은 기울기 분산을 크게 감소시켜 훈련 안정성과 수렴 성능을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.