Skip to main content
QUICK REVIEW

[論文レビュー] Minimal Exploration in Structured Stochastic Bandits

Richard Combes, Stefan Magureanu|arXiv (Cornell University)|Nov 1, 2017
Advanced Bandit Algorithms Research参考文献 27被引用数 80
ひとこと要約

本論文は、構造化された確率的バンディットの広いクラスに対してインスタンス固有の後悔下界を導出し、OSSBを導入する。これは、サブ最適アームの最小探索レートに一致することによりこの界を達成する漸近的に最適なアルゴリズムである。線形バンディットでの実験は、OSSBがThompson samplingや関連手法を上回ることを示している。

ABSTRACT

This paper introduces and addresses a wide class of stochastic bandit problems where the function mapping the arm to the corresponding reward exhibits some known structural properties. Most existing structures (e.g. linear, Lipschitz, unimodal, combinatorial, dueling, ...) are covered by our framework. We derive an asymptotic instance-specific regret lower bound for these problems, and develop OSSB, an algorithm whose regret matches this fundamental limit. OSSB is not based on the classical principle of "optimism in the face of uncertainty" or on Thompson sampling, and rather aims at matching the minimal exploration rates of sub-optimal arms as characterized in the derivation of the regret lower bound. We illustrate the efficiency of OSSB using numerical experiments in the case of the linear bandit problem and show that OSSB outperforms existing algorithms, including Thompson sampling.

研究の動機と目的

  • アームと報酬の対応に既知の構造を持つ確率的バンディットにおける学習の動機づけ。
  • 構造化されたバンディットのためのインスタンス固有の漸近的後悔下界を導出する。
  • 基本的な学習限界に一致するアルゴリズムとしてOSSBを開発する。
  • OSSBの効率性に関する有限時間の後悔解析と数値的証拠を提供する。

提案手法

  • 未知のパラメータ ϕe と構造化報酬写像 𝑢(x,ϕe) を持つ汎用的な構造化 MABをモデル化する。
  • 部分無限LPベースの探索率の下界を導出する(Theorem 1)。
  • OSSB(Optimal Sampling for Structured Bandits)を、活用、推定、探索の各フェーズを伴って定義する。
  • 探索率を導く下界の最適化問題(2)-(3)を解く。
  • BernoulliまたはGaussian報酬に対してOSSBの有限時間および漸近的な後悔境界を証明する。
  • 線形バンディットにおける数値実験を提供し、TSやGLM-UCBよりも性能が向上することを示す。

実験結果

リサーチクエスチョン

  • RQ1問題構造を考慮したとき、各サブオプティマルアームに必要な最小の探索率はどれか?
  • RQ2一般的な構造化バンディットに対してインスタンス固有の下界を達成するアルゴリズムを設計できるか?
  • RQ3明示的に最小探索率を狙うアルゴリズムは、オプティミスム基盤やThompsonサンプリング法とどう比較されるか?
  • RQ4そのようなアルゴリズムの有限時間後悔保証は何か、そしてそれが線形バンディットにおける実用的な性能にどう結びつくか?

主な発見

  • 半無限LPにより、サブ最適アーム全体の探索を制約する厳密なインスタンス固有の後悔下界 C(⫺5) を導出した。
  • OSSBは、c(x,⫺5) log T というレートでサブ最適アームをサンプリングすることにより、漸近的に下界に一致する。
  • OSSBは、活用、推定、探索を交互に行い、最適な探索レートに一致させつつ ⫺5 を学習する。
  • 線形バンディットでは、OSSBがシミュレーションで Thompson sampling、GLM-UCB、および最近の漸近的に最適なアルゴリズムを上回る。
  • このアルゴリズムはオプティミズムや Thompson sampling に基づくものではなく、解析は集中性の議論と最適解の連続性に依拠する。
  • 有限時間の後悔境界が確立され、探索を制御するパラメータが消えると漸近的な下界と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。