Skip to main content
QUICK REVIEW

[論文レビュー] Online Learning with an Unknown Fairness Metric

Stephen Gillen, Christopher Jung|arXiv (Cornell University)|Feb 20, 2018
Ethics and Social Impacts of AI参考文献 15被引用数 56
ひとこと要約

この研究は、未知のマハラノビス距離により定義される個別の公平性制約を持つオンライン線形文脈バンディットを検討し、敵対的な文脈の下で最も公正なポリシーに対する対数的な公平性違反と最適な O(√T) な後悔を実現するアルゴリズムを提供する。

ABSTRACT

We consider the problem of online learning in the linear contextual bandits setting, but in which there are also strong individual fairness constraints governed by an unknown similarity metric. These constraints demand that we select similar actions or individuals with approximately equal probability (arXiv:1104.3913), which may be at odds with optimizing reward, thus modeling settings where profit and social policy are in tension. We assume we learn about an unknown Mahalanobis similarity metric from only weak feedback that identifies fairness violations, but does not quantify their extent. This is intended to represent the interventions of a regulator who "knows unfairness when he sees it" but nevertheless cannot enunciate a quantitative fairness metric over individuals. Our main result is an algorithm in the adversarial context setting that has a number of fairness violations that depends only logarithmically on $T$, while obtaining an optimal $O(\sqrt{T})$ regret bound to the best fair policy.

研究の動機と目的

  • 公平性指標が未知であり、報酬最適化と衝突する可能性があるオンライン学習における公平性の研究動機付け。
  • 未知の距離関数を用いたリプシッツ制約による個別の公平性のモデル化。
  • 敵対的文脈下で公平性違反を小さく抑えつつ、最も公正なポリシーに対する後悔を最小化するアルゴリズムの開発。
  • 大きさを定量化せずに違反を通知する公平性オラクルを活用して指標を学習。
  • マハラノビス距離ベースの指標に対する後悔と公平性違反の境界を確立。

提案手法

  • 問題を、k アクションと d 次元のコンテキストを持つ線形文脈バンディットとして設定する。
  • 公平性をリプシッツ制約で定義すると仮定する:|π_i^t - π_j^t| ≤ d(x_i^t, x_j^t) for all pairs (i,j)。
  • 距離関数 d を未知とみなし、公平性オラクル O_d から提供される弱いフィードバックで学習する。
  • 距離推定を、アクションの各ペアごとに 1 個ずつの DistanceEstimator インスタンスの集合に縮小し、G = A^T A で線形に表現された二乗マハラノビス距離を用いる。
  • その時点の距離推定 hat{d}^t を用いて、公平なアクション分布 π^{t} を得るために、毎ラウンド LP LP(bar{r}^t, hat{d}^t) を解く。
  • 対応する LP 制約が厳密になる場合、または公平性違反が発生した場合にのみ DistanceEstimator インスタンスへフィードバックを提供し、それ以外はロールバックする。
  • 2段階の結果を証明する:(i) 公平性違反の回数を上限化、(ii) 最良の公正ポリシーに対する後悔を上限化し、O~(k^2 d^2 log(T) + d√T) の後悔と O(k^2 d^2 log(d/ε)) の不公平なラウンド数を達成する(ε は適切に設定)。
  • マハラノビス距離 d(x1,x2) = ||A x1 - A x2||_2 に特化し、G = A^T A を線形推定で学習する。)

実験結果

リサーチクエスチョン

  • RQ1未知の公平性指標がある場合、線形文脈バンディットで個別の公平性(Dwork ら 2012 の定義)を満たせるか?
  • RQ2公平性指標が未知のとき、敵対的文脈下で必要な公平性違反の数はどれくらいか?
  • RQ3公平性違反を時間 horizon T に対して対数的に抑えつつ、最良の公正ポリシーに対する後悔をほぼ最適に達成できるか?
  • RQ4公平性オラクルからの弱いフィードバックを未知のマハラノビス距離を学習するのにどう活用するか?
  • RQ5マハラノビス距離のパラメータと時間範囲の観点で、後悔と公平性損失の性能保証はどうなるか?

主な発見

  • 存在する計算的に効率的なアルゴリズム L は、任意のマハラノビス距離と時間 horizon T に対して、誤差許容 ε に対して、best fair policy への後悔 tilde O(k^2 d^2 log(T) + d√T) を達成する。
  • 確率 1 で、L は未知の公平性制約を ε より大きく超えて違反する回数を、おおよそ O(k^2 d^2 log(d/ε)) ラウンドだけで超える。
  • ε = O(1/T) を設定すると、T に対する公平性違反の回数が対数的な境界になる。
  • 2 段階の分析により、距離推定機構を用いて公平性違反を境界づけ、LP ベースの意思決定で後悔を境界づける方法を示す。
  • 既知の目的ケースでは、距離学習を DistanceEstimator インスタンスの数え上げに還元し、ε の誤り回数の境界を設けて論文全体の問題へ拡張する。
  • この手法は、G = A^T A の二乗マハラノビス距離の線形性を活用して、線形推定機で学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。