Skip to main content
QUICK REVIEW

[論文レビュー] A minimax and asymptotically optimal algorithm for stochastic bandits

Pierre Ménard, Aurélien Garivier|arXiv (Cornell University)|Feb 23, 2017
Advanced Bandit Algorithms Research被引用数 72
ひとこと要約

本論文は、指数族分布を持つ確率的バンディット問題に対して kl-UC B++ アルゴリズムを導入し、それがミニマックス最適性と漸近的最適性の双方を満たすことを証明し、二つの時間最適性の概念を統一する。

ABSTRACT

We propose the kl-UCB ++ algorithm for regret minimization in stochastic bandit models with exponential families of distributions. We prove that it is simultaneously asymptotically optimal (in the sense of Lai and Robbins' lower bound) and minimax optimal. This is the first algorithm proved to enjoy these two properties at the same time. This work thus merges two different lines of research with simple and clear proofs.

研究の動機と目的

  • 確率的バンディットにおいて同時にミニマックス最適性と漸近的最適性を満たすアルゴリズムの必要性を動機づける。
  • 指数族分布を活用して kl-UC B++ アルゴリズムを開発・分析する。
  • 有限時間および漸近的な後悔の厳密な保証を提供し、二つの時間最適性の概念を整理統合する。
  • 新しい偏差不等式を用いた後悔分析のための統一的で簡潔な証明枠組みを提供する。

提案手法

  • 探索関数 g(n) = log_plus( (T/(Kn)) (log_plus^2(T/(Kn)) + 1) ) を用いて kl-UC B++ を定義する。
  • KL発散制約を用いて定義された上限信頼界 U_a(t) を用いる: U_a(t) = sup{ mu in I : kl( mu_hat_a(t), mu ) <= g(N_a(t))/N_a(t) }。
  • 平均値区間 [mu-, mu+] を持つ指数族仮定と一様分散界 V に基づく分析。
  • ミニマックス最適性を証明する: R_T ≤ 76 sqrt(V K T) + (mu^+ − mu^-) K.
  • 漸近的最適性を証明する:各サブ最適アーム a および適切な delta に対して、 E[N_a(T)] ≤ log(T)/kl(mu_a+delta, mu^*−delta) + 下限次数項。

実験結果

リサーチクエスチョン

  • RQ1指数族バンディットに対して、単一のバンディットアルゴリズムはミニマックスと問題依存的(漸近的)最適性の両方を同時に満たすことができるか。
  • RQ2探索をどのように調整すれば最悪ケースの後悔を最小化しつつ、問題依存的な後悩率を厳密に達成できるか。
  • RQ3KLベースの UCB 戦略は、分散が有界な分布族全体に対して一様な後悔保証を提供するよう拡張できるか。
  • RQ4ベルヌーイ/ ガウス分布(その他の指数族)におけるkl-UC B++ の有限時間の後悔境界と漸近的特性は正確にはどうなるか。

主な発見

  • kl-UC B++ アルゴリズムは、指数族バンディットに対してミニマックス最適と漸近的最適の両方の後悔を達成する。
  • 有限時間の後悔境界が確立される: R_T ≤ 76 sqrt(V K T) + (mu^+ − mu^-) K.
  • 任意のサブ最適アーム a および適切な delta に対して、 E[N_a(T)] ≤ log(T)/kl(mu_a+delta, mu^*−delta) + O(log log T / delta^2)。
  • 指数族フレームワーク内の特例として Bernoulli および Gaussian のケースを分析対象として含む。
  • 探索率を調整することで、MOSS および KL-UCB に関する従来の研究を統合し、統一的でより単純な証明枠組みを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。