Skip to main content
QUICK REVIEW

[論文レビュー] Contextual Dueling Bandits

Miroslav Dudı́k, Katja Hofmann|arXiv (Cornell University)|Feb 23, 2015
Advanced Bandit Algorithms Research参考文献 24被引用数 6
ひとこと要約

本稿は文脈的デュエルバンドイットフレームワークを導入し、コンドルセ勝者とは異なり常に存在する、ランダム化された方策であるボルツマン勝者(von Neumann winner)を、強力なトランスティビティ仮定を必要とせず、常に存在するロバストな解概念として提案する。著者らは、時間的・空間的計算量が方策空間サイズの対数関数的であるため、相対的フィードバック下で大規模な方策空間においてもスケーラブルなオンラインおよびバッチ学習を可能にする、3つの効率的アルゴリズム(SparringFPL、ProjectedGD、および分類オракルを用いた変種)を提示する。

ABSTRACT

We consider the problem of learning to choose actions using contextual information when provided with limited feedback in the form of relative pairwise comparisons. We study this problem in the dueling-bandits framework of Yue et al. (2009), which we extend to incorporate context. Roughly, the learner's goal is to find the best policy, or way of behaving, in some space of policies, although "best" is not always so clearly defined. Here, we propose a new and natural solution concept, rooted in game theory, called a von Neumann winner, a randomized policy that beats or ties every other policy. We show that this notion overcomes important limitations of existing solutions, particularly the Condorcet winner which has typically been used in the past, but which requires strong and often unrealistic assumptions. We then present three efficient algorithms for online learning in our setting, and for approximating a von Neumann winner from batch-like data. The first of these algorithms achieves particularly low regret, even when data is adversarial, although its time and space requirements are linear in the size of the policy space. The other two algorithms require time and space only logarithmic in the size of the policy space when provided access to an oracle for solving classification problems on the space.

研究の動機と目的

  • デュエルバンドイットにおけるコンドルセ勝者の概念の限界を是正すること。これは強いトランスティビティ仮定を必要とし、大規模な方策空間では存在しない可能性がある。
  • 制限のない仮定のもとで常に存在を保証する一般化された解概念を構築すること。ゲーム理論的原則を用いる。
  • 文脈的デュエルバンドイットにおける大規模または無限大の方策空間においてもスケーラブルに動作する、効率的なオンラインおよびバッチ学習アルゴリズムを設計すること。
  • 敵対的設定下でも低レグレットを達成しつつ、方策空間サイズに対数的依存性を有する計算可能性を維持すること。
  • フィードバックがペアワイズ比較に限定される状況でも、教師あり学習と同等の柔軟な方策設計を可能にすること。

提案手法

  • ボルツマン勝者(von Neumann winner)を解概念として提案:ペアワイズ対戦において、任意の他の方策に対して50%以上の確率で勝つか、引き分けるランダム化方策。
  • SparringFPLを導入:FPLアルゴリズムの2つのコピーをスパアリング形式で実行し、摂動を加えた累積損失を用いてボルツマン勝者を近似する完全オンライン手法。
  • ProjectedGDを採用:戦略ベクトルを維持し、勾配ステップを用いて更新するオンラインの投影勾配降下法。妥当性を保証するための近似投影を実装。
  • 近似投影手順ApproxProjectを設計:反復的最適応答更新を用いて真の投影に近いベクトルを計算し、初期推定値と反復回数の関数として誤差を有界化。
  • 分類オーケストラルを活用して、アルゴリズム内のargmin演算を実装。これにより、方策空間サイズに対して対数的時間・空間計算量を達成。
  • ハイパーパrameter(例:ステップサイズ、摂動スケール)を最適化し、高確率でε-近似解を達成し、低レグレットバウンドを実現。

実験結果

リサーチクエスチョン

  • RQ1コンドルセ勝者が存在しない状況において、常に存在するロバストな解概念を文脈的デュエルバンドイットに定義できるか?
  • RQ2相対的フィードバック下で、文脈的デュエルバンドイット設定において低レグレットを達成するオンライン学習アルゴリズムをどのように設計できるか?
  • RQ3大規模な方策空間においても線形依存性(|Π|)を回避し、効率的にスケーラブルに動作するアルゴリズムを構築できるか?
  • RQ4分類オーケストラルのみを用い、方策空間サイズに対して対数的依存性を持つアルゴリズムが達成可能な理論的レグレットバウンドは何か?
  • RQ5オンライン最適化における収束保証を損なわずに、近似投影をどのように効率的に計算できるか?

主な発見

  • ボルツマン勝者は、いかなるデュエルバンドイット設定においても常に存在が保証され、トランスティビティやコンドルセ勝者仮定を必要としないロバストかつ一般化された解概念を提供する。
  • SparringFPLは敵対的データ下でも低レグレットを達成するが、時間的・空間的計算量は方策空間サイズに線形的に依存する。
  • ProjectedGDは、コンactゲーム定式化においてε-近似解をO(K⁸/ε⁴)回のオラクル呼び出しで達成可能であり、方策空間サイズに対数的依存性を持つため、効率的な学習を可能にする。
  • 近似投影手順ApproxProjectは、α = 8/√Ninの場合に誤差を有界化し、投影勾配降下フレームワークにおける安定的かつ正確な更新を保証する。
  • 適切なパrameterチューニングにより、SparringFPLおよびProjectedGDの両方とも高確率でε-近似解を達成でき、大規模な文脈的デュエルバンドイットの理論的実現可能性を裏付ける。
  • 分類オーケストラルを活用することで、情報検索やレコメンデーションシステムにおける大規模応用に実用的である低レグレットかつスケーラブルなアルゴリズムを実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。