[論文レビュー] Calibrated Fairness in Bandits
本稿では、Dwork らの「類似した個人には類似した扱いを」という原則を、報酬分布が類似する腕に応用することで、確率的マルチアームバンディットにおけるキャリブレートドフェアネスを導入する。初期の均一な探索を伴うトムソンサンプリングの変種を提案し、$ ilde{O}((kT)^{2/3})$ の公平性レグレットと、全変動距離における$(2,\epsilon_2,\delta)$-公平性を達成する。これにより、腕が最適である確率に比例して選択されることが保証される。
We study fairness within the stochastic, \emph{multi-armed bandit} (MAB) decision making framework. We adapt the fairness framework of "treating similar individuals similarly" to this setting. Here, an `individual' corresponds to an arm and two arms are `similar' if they have a similar quality distribution. First, we adopt a {\em smoothness constraint} that if two arms have a similar quality distribution then the probability of selecting each arm should be similar. In addition, we define the {\em fairness regret}, which corresponds to the degree to which an algorithm is not calibrated, where perfect calibration requires that the probability of selecting an arm is equal to the probability with which the arm has the best quality realization. We show that a variation on Thompson sampling satisfies smooth fairness for total variation distance, and give an $ ilde{O}((kT)^{2/3})$ bound on fairness regret. This complements prior work, which protects an on-average better arm from being less favored. We also explain how to extend our algorithm to the dueling bandit setting.
研究の動機と目的
- 報酬分布が類似する腕(類似した腕)が類似する確率で選択されるようにすることで、確率的マルチアームバンディットにおける公平性を確保すること。
- キャリブレートドフェアネスからの逸脱を最小化する公平性レグレットを定義し、選択確率がその腕が最良の実現である確率に一致するようにすること。
- ペアワイズ比較を用いるプラケット=ルースモデルを用いて、デュエルバンディット設定への公平性フレームワークの拡張。
- 修正されたトムソンサンプリングアルゴリズムにおける公平性レグレットと滑らかな公平性の理論的バウンドを提供すること。
- 逐次的意思決定におけるキャリブレートドフェアネス、滑らかな公平性、および標準レグレットのトレードオフを調査すること。
提案手法
- 選択確率が、腕が最高報酬を持つ実現である確率に一致するように、キャリブレートドフェアネスからの逸脱を測る公平性レグレットを提案。
- 初期段階での均一な探索を組み込んだ修正トムソンサンプリングアルゴリズムを導入し、滑らかな公平性とキャリブレーションを確保。
- 全変動距離を用いて、腕の選択確率と報酬分布の類似性の間の類似度を定量化。
- デュエルバンディット設定では、ペアワイズ比較統計量を用いて、プラケット=ルースモデル下での腕の1位ランク確率を推定。
- 濃度バウンドを用いて、ペアワイズ勝率から品質パラメータ比を推定し、最良腕の確率推定に寄与。
- すべての腕のペアに対する探索をバランスさせる Fair_SD_DTS と呼ばれるデュエルバンディットアルゴリズムを設計。最良腕の確率推定値を用いて選択を行う。
実験結果
リサーチクエスチョン
- RQ1報酬分布が類似する腕が類似する確率で選択されるように設計されたバンディットアルゴリズムは可能か?
- RQ2選択確率が最良である確率に一致するというキャリブレートドフェアネスが、バンディット学習でどのように定式化され、最小化できるか?
- RQ3初期の均一な探索を伴うトムソンサンプリングの変種が、確率的バンディット設定においてどの程度の公平性レグレットを示すか?
- RQ4ペアワイズ比較を用いる場合、公平性フレームワークはデュエルバンディット設定へ拡張可能か?
- RQ5このようなアルゴリズムにおける公平性レグレットと滑らかな公平性の理論的バウンドは何か?
主な発見
- 初期の均一な探索を伴う修正トムソンサンプリングアルゴリズムは、任意の $\epsilon_2 > 0$ および $\delta > 0$ に対して、全変動距離における$(2,\epsilon_2,\delta)$-公平性を達成する。
- アルゴリズムの公平性レグレットは $\tilde{O}((kT)^{2/3})$ で有界であり、非公平手法に比べて顕著な改善を示す非線形レグレットである。
- デュエルバンディット設定では、Fair_SD_DTS がペアワイズ比較統計量とプラケット=ルースモデルを用いて、公平性レグレットを $\tilde{O}(k^{4/3}T^{2/3})$ で有界にする。
- アルゴリズムは、全変動距離による報酬分布の類似度に比例する選択確率の差を制約することで、滑らかな公平性を確保する。
- 補題 5.1 は、ペアワイズ勝率推定の誤差が $\leq \epsilon$ である場合、プラケット=ルースモデル下で最良腕確率推定の誤差が $O(k\epsilon)$ に抑えられることを示している。
- 理論的解析により、探索フェーズのスケーリングが $O(1/\epsilon_2^2)$ および $O(\log(1/\delta))$ に比例する場合に公平性レグレットが最小化されることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。