QUICK REVIEW

[論文レビュー] Policy Learning for Fairness in Ranking

Ashudeep Singh, Thorsten Joachims|arXiv (Cornell University)|Feb 11, 2019

Privacy-Preserving Technologies in Data参考文献 44被引用数 41

ひとこと要約

本論文は、ユーザーの利益を最大化しつつランキングにおける実績ベースの露出フェアネスを保証する確率的ランキング方針を学習するための方策勾配フレームワーク Fair-PG-Rank を提案する。

ABSTRACT

Conventional Learning-to-Rank (LTR) methods optimize the utility of the rankings to the users, but they are oblivious to their impact on the ranked items. However, there has been a growing understanding that the latter is important to consider for a wide range of ranking applications (e.g. online marketplaces, job placement, admissions). To address this need, we propose a general LTR framework that can optimize a wide range of utility metrics (e.g. NDCG) while satisfying fairness of exposure constraints with respect to the items. This framework expands the class of learnable ranking functions to stochastic ranking policies, which provides a language for rigorously expressing fairness specifications. Furthermore, we provide a new LTR algorithm called Fair-PG-Rank for directly searching the space of fair ranking policies via a policy-gradient approach. Beyond the theoretical evidence in deriving the framework and the algorithm, we provide empirical results on simulated and real-world datasets verifying the effectiveness of the approach in individual and group-fairness settings.

研究の動機と目的

露出フェアネス制約の下でランキング方針を学習するためのフレームワークを導入する。
ランキングにおける実績ベースの露出割り当てを明示的に許容する。
実用的な方策勾配アルゴリズム（Fair-PG-Rank）を開発し、ユーティリティとフェアネスの双方を最適化する。
学習中に偏りを検出し緩和する実証的証拠を示す。
個人の公平性とグループの公平性の両方において、合成データと実世界データの両方で有効性を示す。）

提案手法

露出ベースのフェアネス制約を持つ確率的ランキングポリシー上のERMとして、公平なLTRを定式化する。
露出、ポジションバイアス、および実績ベースの露出比例制約を定義する。
RankingsのFairness of Exposureフレームワークを採用して、個人およびグループの公平性の格差をモデル化する。
微分可能なスコアリング関数を用いたPlackett-Luceモデルを介してランキングポリシーを具現化する。
ユーティリティと格差項を最適化するための方策勾配（REINFORCE）更新を導出する。
ベースラインとエントロピー正則化による分散削減を組み込み、学習を安定化させる。

実験結果

リサーチクエスチョン

RQ1PG-Rank は、ユーザーのユーティリティを最大化しつつ公平性制約を満たすランキングポリシーを学習できるか。
RQ2Fair-PG-Rank のポリシーは、合成データおよび実データにおいて、NDCGと露出フェアネスのトレードオフを効果的に実現できるか。
RQ3学習中に偏りのある特徴を識別し中和することができるか。
RQ4個人の公平性とグループの公平性の設定の両方において、Fair-PG-Rankはどう機能するか。

主な発見

手法	NDCG@10	ERR
RankSVM Joachims (2006)	0.75924	0.43680
GBDT Ye et al. (2009)	0.79013	0.46201
PG-Rank (Linear model)	0.76145	0.44988
PG-Rank (Neural Network)	0.77082	0.45440

PG-Rank は Yahoo! データで、ベースラインLTR手法と比較して競争力のあるNDCGとERRを達成する。
Fair-PG-Rank は lambda を調整することでユーティリティとフェアネスのトレードオフを行い、NDCGを高水準に保ちつつ格差を低減できる。
合成実験では、Fair-PG-Rank は偏った特徴の重みを下げてグループフェアネスを改善し、ユーティリティを損なわない。
German Credit Dataset では、Fair-PG-Rank は実行を重ねるごとにNDCGとグループフェアネスの格差を効果的にバランスさせる。
この手法は、学習中に偏った属性を識別・緩和する能力を示しており、いくつかのポスト処理ベースラインとは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。