Skip to main content
QUICK REVIEW

[論文レビュー] Relative Upper Confidence Bound for the K-Armed Dueling Bandit Problem

Masrour Zoghi, Shimon Whiteson|arXiv (Cornell University)|Dec 12, 2013
Advanced Bandit Algorithms Research参考文献 38被引用数 57
ひとこと要約

本稿では、K-腕デュエルバンドイット問題に対する新しいアルゴリズムである相対的上界信頼区間(RUCB)を提案する。RUCBは、UCBを拡張したアルゴリズムであり、ペアワイズ比較確率の楽観的推定値を用いて優勝候補の腕を選択し、その後、その腕を基準として標準的なUCBを適用する。RUCBは、既知の探索期間Tを必要とせず、有限時間におけるレグレットバウンドをO(log t)で達成し、実情報検索データを用いた理論的境界と実験的性能の両面で最先端手法を上回る。

ABSTRACT

This paper proposes a new method for the K-armed dueling bandit problem, a variation on the regular K-armed bandit problem that offers only relative feedback about pairs of arms. Our approach extends the Upper Confidence Bound algorithm to the relative setting by using estimates of the pairwise probabilities to select a promising arm and applying Upper Confidence Bound with the winner as a benchmark. We prove a finite-time regret bound of order O(log t). In addition, our empirical results using real data from an information retrieval application show that it greatly outperforms the state of the art.

研究の動機と目的

  • 既存のデュエルバンドイットアルゴリズムが入力として既知の探索期間Tを必要としているという制限を解消すること。これはしばしば推定が困難である。
  • 制限的な仮定やレグレットバウンドにおける悪影響を受ける大きな乗数に依存しない、より広く適用可能なK-腕デュエルバンドイット問題用のアルゴリズムを開発すること。
  • 固定された期間Tまでではなく、すべての時間ステップで成り立つ有限時間・高確率のレグレットバウンドを提供すること。
  • LETORデータセットからの実データを用いた、現実世界の情報検索応用におけるアルゴリズムの優位性を実験的に検証すること。

提案手法

  • RUCBは、腕間のすべてのペアワイズ比較確率pijについて楽観的推定値を維持する。
  • これらの楽観的推定値に基づいて、コンドルセット・ウィナーになり得る高い確率の腕(潜在的優勝者)を特定する。
  • その後、この優勝者を基準として、それに対する標準的な上界信頼区間(UCB)選択を適用する。
  • 探索を制御するための信頼パラメータα > 0.5を用いる。実験では理論的限界に近づくためにα = 0.51を用いる。
  • 事前に指定された時間期間Tが不要な動的適応により、オンラインでリアルタイムに適用可能である。
  • 理論的分析では集中不等式を用いて、非最適選択の確率をバウンドし、O(log t)のレグレットに導く。

実験結果

リサーチクエスチョン

  • RQ1探索期間Tが既知である必要がないデュエルバンドイットアルゴリズムを設計できるか?
  • RQ2既存手法よりも制限の少ない仮定で、有限時間におけるレグレットバウンドO(log t)を達成できるデュエルバンドイットアルゴリズムは存在するか?
  • RQ3楽観的確率推定値を用いて、UCB風のアルゴリズムを相対的フィードバック設定に効果的に拡張できるか?
  • RQ4提案手法は、実世界のデータにおいて、BTM や SAVAGE といった最先端手法を、レグレットと正確性の両面で上回ることができるか?

主な発見

  • RUCBは、すべての時間ステップtに対して成り立つ有限時間・高確率のレグレットバウンドO(log t)を達成する。これは、期間依存の手法とは対照的である。
  • RUCBのレグレットバウンドは、Interleaved Filter(IF)やBeat the Mean(BTM)よりも制限の少ない仮定に依存しており、SAVAGEよりもより良い乗数定数を有する。
  • LETORデータセットの64個のランカーを用いた実世界実験では、450万回の反復において、RUCBはCondorcet SAVAGEに比べて5〜10倍の少ないレグレットを蓄積した。
  • RUCBは、Condorcet SAVAGEが要する時間の約20%の時間で、より高い正確性に到達し、収束がはるかに速いことが示された。
  • RUCBは、期間Tの入力が必要なBTMを著しく上回った。BTMは複数の期間Tで実行されたが、依然としてRUCBに劣った。
  • 100回の独立実験を通じて、RUCBの性能は一貫しており、全テスト対象K値(16, 32, 64)において、レグレットと正確性の両面で一貫した向上を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。