Skip to main content
QUICK REVIEW

[논문 리뷰] A Convex Framework for Fair Regression

Richard A. Berk, Hoda Heidari|arXiv (Cornell University)|2017. 06. 07.
Ethics and Social Impacts of AI참고 문헌 19인용 수 192
한 줄 요약

본 논문은 선형 및 로지스틱 회귀에 대한 공정성 정규화의 볼록 계열을 제시하여 효율적 최적화와 Pareto 경계 및 공정성 비용(Price of Fairness) 전개를 통해 정확도-공정성 트레이드오프를 여섯 개의 데이터셋에 걸쳐 탐색할 수 있게 한다.

ABSTRACT

We introduce a flexible family of fairness regularizers for (linear and logistic) regression problems. These regularizers all enjoy convexity, permitting fast optimization, and they span the rang from notions of group fairness to strong individual fairness. By varying the weight on the fairness regularizer, we can compute the efficient frontier of the accuracy-fairness trade-off on any given dataset, and we measure the severity of this trade-off via a numerical quantity we call the Price of Fairness (PoF). The centerpiece of our results is an extensive comparative study of the PoF across six different datasets in which fairness is a primary consideration.

연구 동기 및 목표

  • 분류를 넘어 회귀 설정에서의 공정성을 동기부여하고 정식화한다.
  • 그룹 간 또는 개인 간의 공정성을 강제하는 유연한 볼록 정규화 계열을 도입한다.
  • 공정성 가중치를 변화시켜 정확도-공정성 Pareto 경계의 계산을 가능하게 한다.
  • 데이터에 의존적인 Price of Fairness (PoF)로 트레이드오프의 심각도를 정량화한다.
  • 보호 변수의 공정성 개념과 처리 방법을 비교하기 위한 다수의 데이터셋에 걸친 광범위한 실증 연구를 제공한다.

제안 방법

  • 가중 목표를 정의하여 회귀 손실, L2 정규화, 그리고 가중치 lambda를 갖는 볼록 공정성 정규화를 결합한다.
  • 개별 공정성에 대한 f1과 그룹 공정성에 대한 f2의 두 가지 핵심 페널티를 제안하며, 각각 교차 그룹 인스턴스 쌍에서 작동하고 d(y_i,y_j)로 가중된다.
  • 보호 그룹에 대해 단일 모델 설정과 개별 모델 설정으로 확장한다.
  • 이진 경우 레이블로 교차 쌍을 묶고 제곱 평균 페널티를 적용함으로써 하이브리드 공정성을 허용한다.
  • 데이터셋을 정규화하고 연속값 타깃과 이진 타깃에 대해 각각에 맞게 d(y_i,y_j)를 선택한다 (실수값 타깃의 경우 e^(-(y_i-y_j)^2)이며 이진 타깃의 경우 1[y_i=y_j]이다).
  • 다양한 lambda에 대해 min_w l(w,S) + lambda f(w,S) + gamma||w||^2 를 풀어 Pareto frontier를 계산한다.

실험 결과

연구 질문

  • RQ1볼록 최적화 프레임워크에서 보호 그룹 또는 개인 간의 공정성을 강제하도록 회귀를 어떻게 정규화할 수 있는가?
  • RQ2다양한 공정성 개념(개별, 그룹, 하이브리드)이 데이터셋 전반에 걸친 회귀 정확도에 미치는 영향은 무엇인가?
  • RQ3그룹별로 별도의 모델을 허용하는 것이 단일 공유 모델에 비해 공정성-정확도 트레이드오프를 실질적으로 개선하는가?
  • RQ4공정성 요구가 강화될수록 정확도 손실은 얼마나 심해지며, 이를 데이터셋 전반에서 어떻게 정량화할 수 있는가?
  • RQ5d(y_i,y_j)의 선택이 공정성-정확도 경계와 PoF에 어떤 영향을 미치는가?

주요 결과

  • 회귀 작업에서 개별 공정성에서 그룹 공정성에 이르는 유연하고 볼록한 공정성 정규화 계열이 포괄된다.
  • 공정성 가중치를 변화시키면 데이터셋 간의 정확도-공정성 트레이드오프를 보여주는 Pareto 경계가 도출된다.
  • Price of Fairness (PoF)는 공정성 제약 하에서의 상대적 정확도 손실을 정량화하며 데이터셋과 공정성 개념에 따라 달라진다.
  • 여섯 개 데이터셋에 걸친 실증 연구에서 PoF는 일반적으로 개별 공정성의 경우가 그룹 공정성보다 높고 도메인 의존적인 변동이 뚜렷하게 나타난다.
  • 그룹별로 개별 모델은 종종 큰 개선을 제공하지 못하거나 과적합으로 인해 외부 샘플에서 성능이 악화될 수 있다.
  • 하이브리드 공정성은 데이터셋과 라벨링 체계에 따라 서로 다른 트레이드오프를 가져오며, 보편적인 공정성 처방은 없다는 점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.