QUICK REVIEW

[論文レビュー] Bounded Regret for Finite-Armed Structured Bandits

Tor Lattimore, Rémi Munos|arXiv (Cornell University)|Nov 11, 2014

Advanced Bandit Algorithms Research参考文献 18被引用数 82

ひとこと要約

本稿では、腕の報酬が共有パラメータに依存する有限腕構造的バンディット問題に対して、期待累積リグレットが有界（有限）であるU既是のアルゴリズムを提案する。標準的なUCBでは対象となる設定で対数的リグレットを生じるが、本手法は最適腕の報酬や最小ギャップに関する事前知識がなくても、報酬の依存関係を活用した構造的探索戦略により、有限リグレットを達成可能である。主な貢献は、最適腕のリターンや最小ギャップに関する事前知識がなくても、報酬の依存関係を活用した探索戦略により、有限リグレットを達成可能にすることである。

ABSTRACT

We study a new type of K-armed bandit problem where the expected return of one arm may depend on the returns of other arms. We present a new algorithm for this general class of problems and show that under certain circumstances it is possible to achieve finite expected cumulative regret. We also give problem-dependent lower bounds on the cumulative regret showing that at least in special cases the new algorithm is nearly optimal.

研究の動機と目的

標準バンディットアルゴリズムが、理論的には有限リグレットが可能であるにもかかわらず、対数的リグレットを被るという限界を是正すること。
腕の報酬間の既知の構造的依存関係を活用して、累積リグレットが有界となる学習アルゴリズムを開発すること。
対数的よりもタイトな問題依存リグレットバウンドを提供し、特殊ケースにおいてほぼ最適性を示すこと。
最適腕の平均やサブオプティマル腕との最小ギャップに関する事前知識がなくても、有限リグレットが達成可能であることを示すこと。

提案手法

腕の期待報酬が共有パラメータ θ* に依存する関数的構造を組み込むことで、UCBを拡張した新しいアルゴリズム UCB-S を提案する。
μi(θ) の関数的構造を考慮した信頼区間を用い、推定されたパラメータ空間に基づいて探索を調整する。
標準UCBが失敗する曖昧な領域における楽観的過剰評価を回避するリスクアセプティブ戦略を採用する。
信頼区間の成長を制御する関数 ω(x) を導入し、構造的制約下でも有限リグレットを保証する。
問題依存解析を適用し、対数的を下回る、しばしば有限となるリグレットの上界を導出する。
構造的性質に基づいてサブオプティマル腕の選択寄与を分離する、新規のリグレット分解を用いる。

実験結果

リサーチクエスチョン

RQ1腕の報酬が共有パラメータに関数的に依存する構造的バンディット問題において、期待累積リグレットを有限に達成できるか？
RQ2標準UCBアルゴリズムが有限リグレットを達成できない構造的条件は何か？そして、その問題はどのように克服できるか？
RQ3最適腕の平均やサブオプティマル腕との最小ギャップに関する事前知識がなくても、有限リグレットを達成可能か？
RQ4リグレットバウンドおよび実験結果において、新アルゴリズムはUCBに比べてどのように性能を発揮するか？
RQ5提案アルゴリズムの近似的最適性を示すために、問題依存の下界を確立できるか？

主な発見

提案されたUCB-Sアルゴリズムは、標準UCBが対数的リグレットを生じる設定（例：μ1(θ) = 0 かつ μ2(θ) = θ for θ ≥ 0）においても、有限期待累積リグレットを達成する。
最適腕の平均や最小ギャップに関する事前知識がなくても、図1の例(a)および(c)で示されるように、有限リグレットが達成可能である。
広告例（μ2(θ) = θ）では、θ* ≥ 0 の場合に有限リグレットが達成可能であるが、θ* < 0 の場合には対数的リグレットが生じる。
μ1(θ) = θ·1{θ>0}, μ2(θ) = -θ·1{θ<0} の場合、適切にチューニングされたアルゴリズムにより、θ ≤ 0 の場合にO(1)のリグレット、θ > 0 の場合にO(1/θ log log(1/θ))のリグレットが達成可能である。
実験では、UCB-Sがほとんどの構造的設定で標準UCBを上回り、特にθ > 0の場合は時間経過とともに優位性が拡大する。
UCB-Sが曖昧な領域で失敗する原因は、制御のない楽観的過剰評価に起因し、その問題はリスクアセプティブな手法によるアルゴリズムの適応で緩和可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。