QUICK REVIEW

[논문 리뷰] Online Learning with an Unknown Fairness Metric

Stephen Gillen, Christopher Jung|arXiv (Cornell University)|2018. 02. 20.

Ethics and Social Impacts of AI참고 문헌 15인용 수 56

한 줄 요약

이 논문은 알려지지 않은 Mahalanobis 거리로 정의된 개인 공정성 제약을 갖는 온라인 선형 맥락 밴딧을 연구하고, 적대적 맥락에서 최적의 공정 정책에 대한 로그형 공정성 위반과 최적의 O(√T) 후회를 달성하는 알고리즘을 제공합니다.

ABSTRACT

We consider the problem of online learning in the linear contextual bandits setting, but in which there are also strong individual fairness constraints governed by an unknown similarity metric. These constraints demand that we select similar actions or individuals with approximately equal probability (arXiv:1104.3913), which may be at odds with optimizing reward, thus modeling settings where profit and social policy are in tension. We assume we learn about an unknown Mahalanobis similarity metric from only weak feedback that identifies fairness violations, but does not quantify their extent. This is intended to represent the interventions of a regulator who "knows unfairness when he sees it" but nevertheless cannot enunciate a quantitative fairness metric over individuals. Our main result is an algorithm in the adversarial context setting that has a number of fairness violations that depends only logarithmically on $T$, while obtaining an optimal $O(\sqrt{T})$ regret bound to the best fair policy.

연구 동기 및 목표

온라인 학습에서 공정성 메트릭이 알려지지 않았고 보상 최적화와 충돌할 수 있음을 연구의 동기로 삼는다.
알려지지 않은 거리 함수를 사용하여 Lipschitz 제약을 통해 개인 공정성을 모델링한다.
적대적 맥락하에서 가장 공정한 정책에 비해 후회를 최소화하면서 공정성 위반을 작게 유지하는 알고리즘을 개발한다.
거리 메트릭을 학습하기 위해 크기를 정량화하지 않는 위반 신호를 제공하는 공정성 오라클을 활용한다.
Mahalanobis 거리 기반 메트릭에 대한 후회 및 공정성 위반 한계를 확립한다.

제안 방법

문제를 k개의 동작과 d차원 맥락을 갖는 선형 맥락 밴딧으로 배치한다.
공정성이 Lipschitz 제약으로 정의된다고 가정한다: |π_i^t - π_j^t| ≤ d(x_i^t, x_j^t) for all pairs (i,j).
거리를 미지수로 간주하고 O_d가 제공하는 약한 피드백에서 학습한다.
거리 추정을 각 동작 쌍마다 하나의 DistanceEstimator 인스턴스로 줄이고, G = A^T A로 선형적으로 표현된 제곱 마할라노비스 거리를 사용한다.
각 라운드에서 공정한 행동 분포 π^t를 얻기 위해 바람직한 거리 추정값 hat{d}^t가 현재인 LP(bar{r}^t, hat{d}^t)를 해결한다.
해당 LP 제약이 타이트해지거나 공정성 위반이 발생한 경우에만 DistanceEstimator 인스턴스에 피드백을 제공하고 그렇지 않으면 롤백한다.
두 단계 결과를 증명한다: (i) 공정성 위반의 수를 한정하고, (ii) 가장 공정한 정책에 대한 후회를 한정하여 O~(k^2 d^2 log(T) + d√T) 후회와 O(k^2 d^2 log(d/ε))의 불공정 라운드를 얻는다 (ε는 적절히 설정).
거리 d(x1,x2) = ||A x1 - A x2||_2의 Mahalanobis 거리로 특수화하고 G = A^T A를 선형 추정으로 학습한다.

실험 결과

연구 질문

RQ1온라인 학습이 선형 맥락 밴딧에서 Dwork 등(2012)의 개별 공정성에 부합하는지 여부는 알 수 없는 공정성 메트릭일 때도 가능한가?
RQ2공정성 메트릭이 알려지지 않았을 때 적대적 맥락에서 필요한 공정성 위반의 수는 얼마나 되는가?
RQ3공정성 위반을 시간 축 T에 로그로 유지하면서 최적의 공정 정책에 대한 거의 최적의 후회를 달성할 수 있는가?
RQ4공정성 오라클의 약한 피드백을 어떻게 이용해 알려지지 않은 Mahalanobis 메트릭을 학습할 수 있는가?
RQ5Mahalanobis 거리 매개변수와 시간 축에 따른 성능 보장(후회 및 공정 손실)은 어떤 형태로 나타나는가?

주요 결과

모든 Mahalanobis 거리 및 시간 축 T에 대해, 오류 허용 ε에 대해, 계산적으로 효율적인 알고리즘 L이 존재하며, 이 알고리즘은 최적의 공정 정책에 대한 후회를 tilde O(k^2 d^2 log(T) + d√T)로 달성한다.
확률적으로 L은 알려지지 않은 공정성 제약을 ε보다 크게 위반하는 라운드가 최대 O(k^2 d^2 log(d/ε))개에서만 발생한다.
ε = O(1/T)로 설정하면 T에서의 공정성 위반의 수에 대한 로그한계가 얻어진다.
2단계 분석은 거리 추정 메커니즘을 사용해 공정성 위반을 한정하고 LP 기반 의사결정을 통해 후회를 한정하는 방법을 보여준다.
알려진 목적의 경우, 이 접근 방식은 ε의 실수오차 수를 한정하는 DistanceEstimator 인스턴스로 거리 학습을 단순화하고 논문 전체 문제로 확장한다.
제법은 G = A^T A에서 제곱 마할라노비스 거리가 선형으로 성질을 이용해 선형 추정기로 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.