Skip to main content
QUICK REVIEW

[논문 리뷰] Identifying and Correcting Label Bias in Machine Learning

Heinrich Jiang, Ofir Nachum|arXiv (Cornell University)|2019. 01. 15.
Ethics and Social Impacts of AI참고 문헌 41인용 수 116
한 줄 요약

요약하면, 이 논문은 편향 라벨이 어떻게 생기는지 모델링하고, 라벨을 바꾸지 않으면서도 다양한 공정성 개념에 걸쳐 편향 없는 분류기를 얻는 재가중 기법을 제안합니다. 이 방법은 이론적 보장과 표준 공정성 데이터셋에 대한 실증 검증을 제공합니다.

ABSTRACT

Datasets often contain biases which unfairly disadvantage certain groups, and classifiers trained on such datasets can inherit these biases. In this paper, we provide a mathematical formulation of how this bias can arise. We do so by assuming the existence of underlying, unknown, and unbiased labels which are overwritten by an agent who intends to provide accurate labels but may have biases against certain groups. Despite the fact that we only observe the biased labels, we are able to show that the bias may nevertheless be corrected by re-weighting the data points without changing the labels. We show, with theoretical guarantees, that training on the re-weighted dataset corresponds to training on the unobserved but unbiased labels, thus leading to an unbiased machine learning classifier. Our procedure is fast and robust and can be used with virtually any learning algorithm. We evaluate on a number of standard machine learning fairness datasets and a variety of fairness notions, finding that our method outperforms standard approaches in achieving fair classification.

연구 동기 및 목표

  • 편향된 라벨링 프로세스에서 편향된 라벨이 어떻게 발생하는지 동기 부여와 형식을 제시하고, 편향 없는 진실 결과를 목표로 함.
  • 관측된 라벨이나 특징을 수정하지 않고 편향된 라벨 데이터를 재가중하는 기법을 제안.
  • 재가중된 편향 라벨 학습과 편향이 없는 라벨 학습이 동등하다는 이론적 보장을 제시.
  • 편향 계수를 추정하고 이를 일반적인 분류기에 적용하는 학습 알고리즘을 개발.
  • 다양한 공정성 개념과 벤치마크 데이터셋 전반에서 효과를 입증.

제안 방법

  • 알 수 없는 편향 없는 진리 라벨 함수와 편향 관찰 라벨 함수가 KL 발산을 이용한 제약 최적화를 통해 관련되어 있음을 가정.
  • 닫힌 형태의 관계를 도출: y_bias는 y_true에 비례하고 exp(-sum_k lambda_k c_k(x,y))와 비례한다.
  • y_true는 y_bias에 비례하고 exp(+sum_k lambda_k c_k(x,y))와 비례한다.
  • 가중치 w(x,y) = exp(sum_k lambda_k c_k(x,y))를 사용하고 sum_y로 정규화하여 학습 샘플을 재가중하는 방법을 제안.
  • 편향된 라벨의 가중치를 이용한 학습이 tilde P 분포 하의 진짜 라벨 학습과 동등하다는 것을 증명.
  • 알고리즘 1(Algorithm 1)을 통해 계수 lambda_k를 학습하고 재가중 손실로 공정성 제약을 만족하도록 학습하는 절차를 제공.

실험 결과

연구 질문

  • RQ1진정한 라벨을 알 수 없지만도 공정성 제약이 달성되려면 라벨 편향은 수학적으로 어떻게 모델링될 수 있는가?
  • RQ2편향된 라벨 데이터의 재가중이 편향 없는 라벨 최적화 시의 학습 동작과 같아지게 할 수 있는가?
  • RQ3편향 계수를 어떻게 학습하고 업데이트하여 인구통계적 평등, 차별적 영향, 동등한 기회, 동등화된 임계값을 만족시킬 수 있는가?
  • RQ4재가중된 편향 데이터로 학습할 때의 이론적 보장(일치율의 속도)은 무엇인가?
  • RQ5제안된 방법이 표준 공정성 데이터셋과 개념에서 포스트 프로세싱 및 라그랑지 접근법과 비교하여 어떤 성능을 보이는가?

주요 결과

  • 관찰된 편향 라벨과 기본적으로 편향되지 않은 라벨 사이를 지수 가중치로 연결하는 닫힌 형태의 표현이 공정성 제약에 의해 도출된다.
  • 재가중 기법은 제한된 조건 하에서 수정된 특징 분포 하의 편향 없는 라벨 학습과 동일한 학습 목표를 산출한다.
  • 반복적 알고리즘 1은 편향 계수와 샘플 가중치를 학습하고, 인구통계적 평등, 차별적 영향, 동등한 기회와 같은 공정성 개념을 달성할 수 있다.
  • 표준 공정성 데이터셋에서의 실증 평가에서 제안된 재가중 방법이 여러 공정성 개념에서 기초 방법보다 공정성 위반을 더 잘 감소시키는 것으로 나타났다.
  • 이론적 결과는 가중 추정기의 유한 표본 일치 속도를 확립하고, 차원 의존성을 개선하는 다룬 속도를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.