[논문 리뷰] Policy Learning for Fairness in Ranking
본 논문은 사용자 효용을 최대화하면서 랭킹에서의 자격 기반 노출 공정성을 강제하는 확률적 랭킹 정책을 학습하는 정책-그래디언트 프레임워크인 Fair-PG-Rank를 소개한다.
Conventional Learning-to-Rank (LTR) methods optimize the utility of the rankings to the users, but they are oblivious to their impact on the ranked items. However, there has been a growing understanding that the latter is important to consider for a wide range of ranking applications (e.g. online marketplaces, job placement, admissions). To address this need, we propose a general LTR framework that can optimize a wide range of utility metrics (e.g. NDCG) while satisfying fairness of exposure constraints with respect to the items. This framework expands the class of learnable ranking functions to stochastic ranking policies, which provides a language for rigorously expressing fairness specifications. Furthermore, we provide a new LTR algorithm called Fair-PG-Rank for directly searching the space of fair ranking policies via a policy-gradient approach. Beyond the theoretical evidence in deriving the framework and the algorithm, we provide empirical results on simulated and real-world datasets verifying the effectiveness of the approach in individual and group-fairness settings.
연구 동기 및 목표
- 공정한 노출 제약 하에서 랭킹 정책을 학습하는 프레임워크를 도입한다.
- 랭킹에서 명시적으로 자격 기반의 노출 분배를 허용한다.
- 유용도와 공정성을 모두 최적화하기 위한 실용적인 정책-그래디언트 알고리즘(Fair-PG-Rank)을 개발한다.
- 학습 중에 편향을 탐지하고 완화한다는 경험적 증거를 보인다.
- 개인적 및 그룹 공정성에 대해 합성 및 실제 데이터셋에서의 효과를 보여준다.
제안 방법
- 노출 기반의 공정성 제약을 가진 확률적 랭킹 정책에 대한 ERM으로의 공정 LTR 형식화.
- 노출, 위치 편향, 자격 기반 노출 비례 제약을 정의한다.
- 개별 및 그룹 공정성 차이를 모델링하기 위해 Rankings의 공정성 프레임워크를 채택한다.
- Diff 가능한 점수 함수를 갖는 Plackett-Luce 모델로 랭킹 정책을 구현한다.
- 정책-그래디언트(REINFORCE) 업데이트를 도출하여 유용도와 편차 항을 최적화한다.
- 학습 안정화를 위해 기저값 및 엔트로피 정규화를 통한 분산 감소를 도입한다.
실험 결과
연구 질문
- RQ1PG-Rank가 공정성 제약을 만족하면서 사용자 효용을 극대화하는 랭킹 정책을 학습할 수 있는가?
- RQ2Fair-PG-Rank 정책이 합성 및 실제 데이터에서 NDCG와 노출 공정성 간의 트레이드오프를 효과적으로 보이는가?
- RQ3학습 중 편향된 특징을 식별하고 중화할 수 있는가?
- RQ4Fair-PG-Rank가 개인적 공정성 및 그룹 공정성 설정 모두에서 어떻게 작동하는가?
주요 결과
| Method | NDCG@10 | ERR |
|---|---|---|
| RankSVM Joachims (2006) | 0.75924 | 0.43680 |
| GBDT Ye et al. (2009) | 0.79013 | 0.46201 |
| PG-Rank (Linear model) | 0.76145 | 0.44988 |
| PG-Rank (Neural Network) | 0.77082 | 0.45440 |
- PG-Rank는 Yahoo! 데이터에서 기본 LTR 방법과 비교하여 경쟁력 있는 NDCG 및 ERR를 달성한다.
- Fair-PG-Rank는 lambda를 조정하여 유용도와 공정성 간의 트레이드를 가능하게 하여 차이를 줄이면서 높은 NDCG를 유지한다.
- 합성 실험에서 Fair-PG-Rank는 편향된 특징의 가중치를 낮추도록 학습하여 그룹 공정성을 개선하고 유용도 손실을 최소화한다.
- German Credit Dataset에서 Fair-PG-Rank는 실행 간 그룹 공정성 차이를 균형 있게 조정하며 NDCG를 유지한다.
- 본 방법은 학습 중 편향된 속성을 식별하고 완화하는 능력을 시연하며, 일부 포스트-프로세싱 기법과 달리 학습 시점에 이를 다룬다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.