QUICK REVIEW

[논문 리뷰] Assessing Algorithmic Fairness with Unobserved Protected Class Using Data Combination

Nathan Kallus, Xiaojie Mao|arXiv (Cornell University)|2019. 06. 01.

Insurance, Mortality, Demography, Risk Management참고 문헌 50인용 수 31

한 줄 요약

이 논문은 보호 계층 소속(예: 인종, 성별)이 관측되지 않을 경우, 주된 데이터셋과 보조 데이터셋(예: 성씨, 거주지역 등 대체 변수 포함)을 조합하여 알고리즘 공정성 평가 방법을 제안한다. 관측된 데이터와 보조 대체 변수 정보와 일관된 가장 날카로운 불일치 집합의 정확한 특성화를 제공하며, 최적화 및 시각화 도구를 함께 제공함으로써 모기지 대출 및 개인 맞춤 의료와 같은 실제 적용 분야에서의 강력한 공정성 평가를 가능하게 한다.

ABSTRACT

The increasing impact of algorithmic decisions on people's lives compels us to scrutinize their fairness and, in particular, the disparate impacts that ostensibly-color-blind algorithms can have on different groups. Examples include credit decisioning, hiring, advertising, criminal justice, personalized medicine, and targeted policymaking, where in some cases legislative or regulatory frameworks for fairness exist and define specific protected classes. In this paper we study a fundamental challenge to assessing disparate impacts in practice: protected class membership is often not observed in the data. This is particularly a problem in lending and healthcare. We consider the use of an auxiliary dataset, such as the US census, to construct models that predict the protected class from proxy variables, such as surname and geolocation. We show that even with such data, a variety of common disparity measures are generally unidentifiable, providing a new perspective on the documented biases of popular proxy-based methods. We provide exact characterizations of the tightest-possible set of all possible true disparities that are consistent with the data (and possibly any assumptions). We further provide optimization-based algorithms for computing and visualizing these sets and statistical tools to assess sampling uncertainty. Together, these enable reliable and robust assessments of disparities -- an important tool when disparity assessment can have far-reaching policy implications. We demonstrate this in two case studies with real data: mortgage lending and personalized medicine dosing.

연구 동기 및 목표

실제 데이터셋에서 보호 계층 소속이 관측되지 않을 경우 알고리즘 공정성 평가의 핵심 과제를 해결함 — 특히 대출 및 의료와 같은 민감한 분야에서.
보호 계층 소속을 간접적으로 나타내는 지표에 의존하는 대체 방법의 한계를 극복함 — 이러한 방법들은 알려진 바와 같이 편향을 유발하고 이론적 보장이 없음.
관측된 데이터와 보조 대체 정보와 일관된 모든 불일치의 가장 날카로운 가능한 집합을 계산하기 위한 원칙적인 프레임워크 개발.
표본 추출 불확실성의 양적 측정과 시각화 도구를 제공함으로써 정책 결정에 실질적인 영향을 미치는 신뢰성 있고 강력한 공정성 평가를 가능하게 함.
모기지 대출 및 개인 맞춤 의료 복용량 설정 분야의 사례 연구를 통해 본 방법의 실용적 유용성을 입증함.

제안 방법

미국 인구 조사 등의 보조 데이터셋을 사용하여 성씨, 거주지역 등의 대체 변수를 바탕으로 보호 계층 소속의 확률을 모델링함.
관측된 데이터와 대체 모델 하에서 불일치 측정치(예: 민족적 균형, 동일 기회)의 가장 날카로운 경계를 계산하기 위해 제약 조건이 있는 최적화 문제로 문제를 재구성함.
관측된 데이터와 가정에 대해 일관된 모든 가능한 진정한 불일치 집합을 볼록 최적화 기법을 사용해 특성화함.
이러한 불일치 경계를 계산하고 시각화할 수 있는 알고리즘 개발을 통해 이해하기 쉬우면서도 강력한 공정성 평가를 가능하게 함.
표본 추출 불확실성의 정량적 측정 도구를 통합하여 정책 결정에 대한 신뢰도를 향상시킴.
실제 모기지 대출 및 개인 맞춤 의료 데이터셋에 본 프레임워크를 적용하여 실현 가능성과 영향력을 입증함.

실험 결과

연구 질문

RQ1주된 데이터셋에서 보호 계층 소속이 관측되지 않을 경우, 얼마나 신뢰성 있게 알고리즘 불일치를 경계할 수 있는가?
RQ2보호 계층 소속을 유추하기 위한 일반적인 대체 기반 방법은 불일치 식별성과 정확성에 어떤 영향을 미치는가?
RQ3관측된 데이터와 보조 대체 정보와 일관된 가장 날카로운 불일치 집합은 무엇이며, 이를 효율적으로 계산할 수 있는가?
RQ4불일치 경계의 표본 추출 불확실성을 어떻게 정량화하고 시각화하여 강력한 의사결정 지원을 할 수 있는가?
RQ5제안된 프레임워크는 모기지 대출 및 개인 맞춤 의료와 같은 고위험 분야에서 실질적인 공정성 평가에 효과적으로 적용될 수 있는가?

주요 결과

보호 계층 소속이 관측되지 않는 한, 일반적인 불일치 측정치는 보조 대체 데이터가 있더라도 일반적으로 식별 불가능함 — 이는 대체 기반 공정성 평가의 근본적 한계를 드러냄.
제안된 방법은 데이터와 일관된 가장 날카로운 불일치 집합의 정확한 특성화를 제공하며, 대체 기반 보정보다 더 신뢰할 수 있는 대안을 제공함.
프레임워크를 통해 불일치 경계의 계산과 시각화가 가능해져, 불확실성 하에서 공정성 평가를 강력하게 수행할 수 있음.
표본 추출 불확실성에 대한 통계 도구가 통합되어 있어, 실생활 응용에서 공정성 평가의 신뢰도가 향상됨.
모기지 대출 및 개인 맞춤 의료 분야의 사례 연구를 통해 본 방법의 실용적 유용성이 입증되었으며, 이는 이전에 가려졌을 수 있는 의미 있는 불일치를 드러냄.
이 방법은 대체 기반 방법이 잘못된 공정성 결론을 도출할 수 있음을 드러내며, 더 엄격하고 경계 기반의 평가 프레임워크의 필요성을 강조함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.