QUICK REVIEW

[논문 리뷰] Calibration for the (Computationally-Identifiable) Masses

Úrsula Hébert-Johnson, Michael P. Kim|arXiv (Cornell University)|2017. 11. 22.

Computability, Logic, AI Algorithms참고 문헌 13인용 수 49

한 줄 요약

이 논문은 계산적으로 유한한 함수(예: 작은 회로)로 식별 가능한 모든 하위집단에 대해 정확한 예측을 보장하는 공정성 기준인 멀티캘리브레이션을 도입한다. 이는 증명 가능하고 정확한 공정성 보장을 갖는 경사하강 유사 알고리즘을 제안하며, 약간의 가정 하에 정확하고 공정한 예측자가 계산적으로 실현 가능하다는 것을 보여준다.

ABSTRACT

As algorithms increasingly inform and influence decisions made about individuals, it becomes increasingly important to address concerns that these algorithms might be discriminatory. The output of an algorithm can be discriminatory for many reasons, most notably: (1) the data used to train the algorithm might be biased (in various ways) to favor certain populations over others; (2) the analysis of this training data might inadvertently or maliciously introduce biases that are not borne out in the data. This work focuses on the latter concern. We develop and study multicalbration -- a new measure of algorithmic fairness that aims to mitigate concerns about discrimination that is introduced in the process of learning a predictor from data. Multicalibration guarantees accurate (calibrated) predictions for every subpopulation that can be identified within a specified class of computations. We think of the class as being quite rich; in particular, it can contain many overlapping subgroups of a protected group. We show that in many settings this strong notion of protection from discrimination is both attainable and aligned with the goal of obtaining accurate predictions. Along the way, we present new algorithms for learning a multicalibrated predictor, study the computational complexity of this task, and draw new connections to computational learning models such as agnostic learning.

연구 동기 및 목표

예측기 학습 과정에서의 편향된 학습 과정에 기인한 알고리즘적 차별을 해결한다.
계산 복잡도가 제한된 함수의 집합으로 식별 가능한 모든 하위집단에 대해 캘리브레이션된 예측을 보장하는 공정성 개념인 멀티캘리브레이션을 개발한다.
멀티캘리브레이션된 예측기를 효율적으로 학습시킬 수 있음을 보여주며, 높은 예측 정확도를 유지한다.
멀티캘리브레이션과 아그노스틱 학습과 같은 계산 학습 모델 간의 이론적 연결 고리를 설정한다.
작은 레이블이 부여된 데이터셋에서 일반 목적의 알고리즘을 제공하여, 악성 또는 노이즈 있는 조건 하에서도 멀티캘리브레이션된 예측기를 학습할 수 있도록 한다.

제안 방법

계산 복잡도가 제한된 함수의 집합 C에 속하는 함수로 정의된 모든 집합에서 예측이 캘리브레이션되도록 보장하는 공정성 기준으로 멀티캘리브레이션을 제안한다.
소규모 레이블이 부여된 예시들로부터 멀티캘리브레이션된 예측기를 학습하기 위해 경사하강 유사 반복적이고 노레그 없는 온라인 최적화 알고리즘을 설계한다.
연속적인 예측 출력 범위를 다루기 위해 실수 예측 출력에 대한 이산화 기법을 도입하여 캘리브레이션 보장을 유지한다.
각 하위집단에서의 예측 오차를 제한하기 위해 α-캘리브레이션 개념을 도입하여, 어떤 하위집단에서도 평균 제곱 오차가 그 하위집단에 대해 최적일 수 있는 예측기의 오차보다 작은 애드디티브 요소(6α) 이내로 유지되도록 보장한다.
예측 공간과 하위집단 정의의 구조를 활용하여, C에 속한 모든 하위집단에서 오차를 점진적으로 감소시키는 방식으로 예측을 업데이트한다.
누적 손실이 선형보다 느리게 증가함을 보여, 알고리즘이 수렴함을 증명함으로써 예측 오차가 모든 식별 가능한 하위집단에서 최적 수준에 가까워짐을 보여준다.

실험 결과

연구 질문

RQ1계산적으로 유한한 함수로 식별 가능한 모든 하위집단에 대해 정확한 예측을 보장하는 공정성 기준을 설계할 수 있는가?
RQ2하위집단의 수가 지수적으로 많을 경우에도 멀티캘리브레이션된 예측기를 효율적으로 학습할 수 있는가?
RQ3멀티캘리브레이션은 등가된 기회나 민족적 평등성과 같은 기존의 공정성 개념과 어떻게 관련이 있는가?
RQ4멀티캘리브레이션된 예측기는 각 하위집단에 대해 최적의 예측기와 비교해 작은 애드디티브 오차 이내의 예측 정확도를 달성할 수 있는가?
RQ5멀티캘리브레이션된 예측기를 학습하는 데 필요한 계산 복잡도는 무엇이며, 이는 계산 학습 이론의 알려진 문제들과 어떻게 관련이 있는가?

주요 결과

멀티캘리브레이션은 집합 C에 속하는 함수로 정의된 어떤 하위집단에서도 예측 오차가 그 하위집단에 대해 최적일 수 있는 예측기의 오차보다 작은 애드디티브 요소(6α) 이내로 유지됨을 보장한다.
제안된 알고리즘은 가설 클래스의 크기와 원하는 정확도에 따라 다항적으로 증가하는 반복 횟수와 샘플 복잡도로 멀티캘리브레이션을 달성한다.
알고리즘은 H에 속한 함수 h에 의해 식별되는 하위집단 S_v(h)에 대해, 예측기의 평균 제곱 오차가 그 하위집단에 대해 최적의 예측기보다 6α 이내로 높지 않음을 보장한다.
노이즈 또는 악성 환경에서도 강인한데, 이는 비독립 동일분포가 아닌 데이터를 자연스럽게 다룰 수 있는 노레그 없는 온라인 학습 원리를 기반으로 하기 때문이다.
이 프레임워크는 멀티캘리브레이션과 아그노스틱 학습 간의 공식적인 연결 고리를 설정하여, 멀티캘리브레이션이 아그노스틱 학습의 공정성 인식된 변형으로 볼 수 있음을 보여준다.
이론적 분석을 통해, S(H)에 속한 모든 집합에서 캘리브레이션된 예측기는 모든 계산적으로 식별 가능한 하위집단에서 H의 최적 가설보다 작은 애드디티브 오차 이내로 성능을 보임을 증명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.