QUICK REVIEW

[논문 리뷰] Why Is My Classifier Discriminatory?

Irene A. Chen, Fredrik Johansson|arXiv (Cornell University)|2018. 05. 30.

Artificial Intelligence in Healthcare인용 수 151

한 줄 요약

이 논문은 예측 모델의 공정성 차이를 편향, 분산, 잡음으로 분해하여 차별을 분석하고, 데이터 수집이 종종 정확도 손실 없이 차별을 감소시킨다고 주장한다.

ABSTRACT

Recent attempts to achieve fairness in predictive models focus on the balance between fairness and accuracy. In sensitive applications such as healthcare or criminal justice, this trade-off is often undesirable as any increase in prediction error could have devastating consequences. In this work, we argue that the fairness of predictions should be evaluated in context of the data, and that unfairness induced by inadequate samples sizes or unmeasured predictive variables should be addressed through data collection, rather than by constraining the model. We decompose cost-based metrics of discrimination into bias, variance, and noise, and propose actions aimed at estimating and reducing each term. Finally, we perform case-studies on prediction of income, mortality, and review ratings, confirming the value of this analysis. We find that data collection is often a means to reduce discrimination without sacrificing accuracy.

연구 동기 및 목표

데이터 맥락에서의 공정성 평가를 동기 부여하고 모델만을 제약하는 데에 국한하지 않는다.
비용 기반 공정성 하에서 차별의 편향-분산-잡음 분해를 제안한다.
각 차별 구성요소를 추정하고 감소시키는 절차를 제공한다.
실제 과제에서 데이터 수집과 표적 변수 수집이 어떻게 차별을 감소시킬 수 있는지 보여준다.

제안 방법

비용 기반 공정성(FPR, FNR, 또는 제로-원인 손실)에 대한 차별의 원인들을 분리하기 위해 편향-분산-잡음 분해를 사용한다.
무작위 학습 세트에 대한 기대 차별을 정의하고 추정 기법을 제공한다.
새로운 특징이 필요한 하위 모집단을 식별하기 위해 데이터 수집 확장, 샘플링 축소, 군집화를 제안한다.
학습 곡선 모델링을 적용하여 학습 데이터가 증가함에 따라 차별을 예측한다.
소득 예측, ICU 사망률, 그리고 서평 예측에 대한 사례 연구를 수행하여 접근법을 검증한다.

실험 결과

연구 질문

RQ1예측 모델에서 차별에 기여하는 서로 다른 원천(편향, 분산, 잡음)은 무엇인가?
RQ2비용 기반 공정성을 위해 실제로 이러한 원천을 어떻게 추정하고 분리할 수 있는가?
RQ3추가 데이터 수집이나 표적 특징 수집이 정확도를 희생하지 않고 차별을 줄일 수 있는가?
RQ4실제 작업에서 차별과 그 원인이 (소득, 사망률, 리뷰) 등 다양한 과제에서 어떻게 달라지는가?

주요 결과

차별은 편향, 분산, 잡음으로 분해될 수 있으며, 편향이나 분산의 차이는 모델 또는 데이터 이슈를 나타내고, 잡음의 차이는 누락된 예측 변수들을 시사한다.
학습 데이터를 증가시키면 거짓 양성률과 거짓 음성률이 모두 감소하여 소득 예측에서 차별 수준이 낮아진다.
여러 작업에서 그룹별 잡음 추정값이 다르게 나타나며, 이는 비대칭적 예측 가능성(잡음)이 모델 선택이나 데이터 규모를 넘어 차별에 기여함을 시사한다.
클러스터링은 오류 차이가 큰 하위 모집단을 식별하고 차별 감소를 위한 표적 데이터 수집을 안내할 수 있다.
ICU 사망률 예측에서 일부 민족 그룹은 유의하게 다른 오류율을 보이며, 주제 모델링은 큰 차이를 보이는 하위 모집단을 나타낸다.
서평 실험은 덜 대표되는 성별의 표적 샘플링이 평균 제곱 오차의 일부 차별을 제거할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.