QUICK REVIEW

[논문 리뷰] Learning Adversarially Fair and Transferable Representations

David Madras, Elliot Creager|arXiv (Cornell University)|2018. 02. 17.

Adversarial Robustness in Machine Learning참고 문헌 34인용 수 190

한 줄 요약

이 논문은 적대적 목표를 통해 공정성(인구통계학적 형평성, 동등화된 오즈, 동등한 기회)을 강제하고 보이지 않는 작업에 대한 공정한 전이를 시연하는 프레임워크(LAFTR)를 제안한다.

ABSTRACT

In this paper, we advocate for representation learning as the key to mitigating unfair prediction outcomes downstream. Motivated by a scenario where learned representations are used by third parties with unknown objectives, we propose and explore adversarial representation learning as a natural method of ensuring those parties act fairly. We connect group fairness (demographic parity, equalized odds, and equal opportunity) to different adversarial objectives. Through worst-case theoretical guarantees and experimental validation, we show that the choice of this objective is crucial to fair prediction. Furthermore, we present the first in-depth experimental demonstration of fair transfer learning and demonstrate empirically that our learned representations admit fair predictions on new tasks while maintaining utility, an essential goal of fair representation learning.

연구 동기 및 목표

서드 파티의 목표가 알려지지 않은 경우 다운스트림 예측의 불공정을 완화하는 수단으로 표현 학습의 필요성을 동기화한다.
그룹 공정성 개념을 적대적 목표와 연결하고 이론적 공정성 보장을 제공한다.
새로운 작업에서의 공정한 예측과 유용성 유지를 동시에 달성하는 전이 가능한 표현 학습 프레임워크를 개발·평가한다.

제안 방법

인코더 f, 분류기 g, 디코더 k, 그리고 표현 Z에서 작동하는 적대자 h로 구성된 일반화된 표현 학습 모델을 제안한다.
분류 손실, 재구성 손실, 민감 속성 A를 보호하는 것을 목표로 하는 적대 손실을 결합하는 최소-최대 objective를 정의한다.
인구통계학적 형평성, 동등화된 오즈, 동등한 기회를 위한 새로운 그룹-공정성 중심의 적대적 목표를 도입한다.
f, g, h, k를 구현하고 교대 경사 하강법으로 학습하기 위해 신경망을 사용한다.
적대자의 목표가 g의 다운스트림 공정성 위반을 상한으로 상한을 어떻게 제시하는지에 대한 이론적 한계를 제공한다.
재구성 목표로 학습하고 보지 못한 전이 작업에서의 평가를 통해 공정한 전이를 강조한다.

(a) Tradeoff between accuracy and $\Delta_{DP}$

실험 결과

연구 질문

RQ1적대적으로 학습된 표현이 다양한 그룹 공정성 지표에 대해 다운스트림의 불공정을 상한으로 제한할 수 있는가?
RQ2학습된 표현이 다운스트림 모델에 명시적인 공정성 제약 없이 보지 못한 작업에서 공정하고 정확한 예측(공정한 전이)을 허용하는가?
RQ3다른 적대적 목표(DP, EO, EOpp)가 해당 공정성 개념 및 보장과 어떤 관련이 있는가?
RQ4표현 중심의 공정성 접근법이 다양한 작업에서의 전이 학습 성능에 미치는 영향은 무엇인가?

주요 결과

적대적으로 학습된 표현은 다운스트림 분류기에 대한 인구통계학적 형평성과 동등화된 오즈의 차이를 상한으로 제한할 수 있다.
한 작업에서 학습된 표현이 보지 못한 작업에서 공정한 예측을 지원하면서 유용성을 유지하는 공정한 전이를 가능하게 한다.
다른 적대적 목표가 인구통계학적 형평성, 동등화된 오즈, 동등한 기회 개념과 일치하며 맞춤형 공정성 제어를 제공한다.
Adult에 대한 실험 결과는 공정성 지표 전반에서 정확도-공정성의 우호적인 트레이드오프를 보여준다.
이 논문은 학습된 표현을 사용한 공정한 전이 학습의 심층적 실험적 시연을 처음으로 제공한다。

(b) Tradeoff between accuracy and $\Delta_{EO}$

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.