Skip to main content
QUICK REVIEW

[論文レビュー] Reducing Dueling Bandits to Cardinal Bandits

Nir Ailon, Thorsten Joachims|arXiv (Cornell University)|May 14, 2014
Advanced Bandit Algorithms Research参考文献 20被引用数 35
ひとこと要約

本稿は、Dueling Bandits問題を従来のMulti-Armed Bandit(MAB)フレームワークに変換する3つの還元手法—Doubler、MultiSBM、Sparring—を導入する。これにより、既存のMABアルゴリズムの利用が可能になる。第二階層の項を考慮した初めてのほぼ最適なレグレットバウンドを提供し、MultiSBMについては漸近的最適性を証明している。Sparringは実験的に先行手法を上回る性能を示している。

ABSTRACT

We present algorithms for reducing the Dueling Bandits problem to the conventional (stochastic) Multi-Armed Bandits problem. The Dueling Bandits problem is an online model of learning with ordinal feedback of the form "A is preferred to B" (as opposed to cardinal feedback like "A has value 2.5"), giving it wide applicability in learning from implicit user feedback and revealed and stated preferences. In contrast to existing algorithms for the Dueling Bandits problem, our reductions -- named $\Doubler$, $\MultiSbm$ and $\DoubleSbm$ -- provide a generic schema for translating the extensive body of known results about conventional Multi-Armed Bandit algorithms to the Dueling Bandits setting. For $\Doubler$ and $\MultiSbm$ we prove regret upper bounds in both finite and infinite settings, and conjecture about the performance of $\DoubleSbm$ which empirically outperforms the other two as well as previous algorithms in our experiments. In addition, we provide the first almost optimal regret bound in terms of second order terms, such as the differences between the values of the arms.

研究の動機と目的

  • 順序付きフィードバック設定において、既存のMABアルゴリズムを適用可能なように、Dueling Banditsと従来のMulti-Armed Banditsの間のギャップを埋めること。
  • 元のMABアルゴリズムの性能を保つ還元手法に対する理論的レグレットバウンドを提供すること。
  • 既知のMAB結果をDueling Bandits設定に変換するための汎用的スキーマを開発すること。
  • 時間枠Tおよび第二階層の項(例えば、アーム価値の差)において、漸近的最適性を達成すること。
  • 提案手法をBTMB や IF などの既存アルゴリズムと実験的に比較評価すること。

提案手法

  • Doublerは、ペア内の各アームについて独立した2つのMABインスタンスをシミュレートし、対称的なフィードバックメカニズムを用いることで、Dueling BanditsをMABに還元する。
  • MultiSBMは、左右のアームのペアワイズ比較において等価な扱いがなされるように、対称的かつバランスの取れたサンプリング戦略を用い、2つの独立したMAB学習者を維持する。
  • Sparringはトーナメント形式の排除機構を採用し、アームをペアにして勝者を進出させることで、スポーツ競技を模倣し、レグレットを低減する。
  • すべての還元手法は、MABアルゴリズムをブラックボックスとして扱い、既知のレグレットバウンドを持つ任意のMABアルゴリズムを組み込むことができる。
  • 還元手法は、元のMABアルゴリズムのレグレット特性を保つように設計されており、DoublerはO(log T)のオーバーヘッドを負い、MultiSBMは漸近的最適性を達成する。
  • 理論的分析は線形リンク関数を想定しており、他のリンク関数への拡張は付録で提示されている。

実験結果

リサーチクエスチョン

  • RQ1Dueling Banditsを、レグレット保証を保ちながら、標準的なMulti-Armed Banditsに体系的に還元することは可能か?
  • RQ2ブラックボックスMABアルゴリズムを用いてDueling BanditsをMABに還元する際、最小限のレグレットオーバーヘッドはどの程度か?
  • RQ3還元手法は、Tだけでなく、アーム価値の差のような第二階層の項においても漸近的最適性を達成できるか?
  • RQ4提案手法は、BTMB や IF などの既存のDueling Banditsアルゴリズムと比較して、実験的にどのように差をつけるか?
  • RQ5Sparringの実験的性能が他の手法を上回るが、その背後には、レグレットバウンドによる理論的裏付けがあるか?

主な発見

  • MultiSBMは、時間枠Tおよび第二階層の項において漸近的に最適なレグレットを達成し、UCBのレグレットと低次の項を除いて一致する。
  • Doublerは、元のMABアルゴリズムに比べて追加のO(log T)のレグレット要因を負うが、多項式的レグレットを持つMABではこれがO(1)にまで低下する。
  • Sparringは、すべてのテストシナリオにおいて、BTMB や IF を含む他のすべてのアルゴリズムを実験的に上回る性能を示すが、そのレグレットバウンドはまだ推測にとどまる。
  • 提案された還元手法により、任意の既存のMABアルゴリズムをブラックボックスとして利用可能となり、既知のMAB結果の順序付きフィードバック設定への応用範囲が著しく広がる。
  • 実験により、MultiSBMとIFがレグレットの観点で最も優れた性能を示すことが確認され、MultiSBMはアーム価値やリンク関数の設定が多様な状況でも一貫した優位性を示している。
  • 還元手法は、YJベンチマークを含むさまざまな設定においても頑健であり、変更なしに適用されても強力な性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。