QUICK REVIEW

[論文レビュー] A Finite-Time Analysis of Multi-armed Bandits Problems with Kullback-Leibler Divergences

Odalric-Ambrym Maillard, Rémi Munos|arXiv (Cornell University)|May 29, 2011

Advanced Bandit Algorithms Research参考文献 14被引用数 121

ひとこと要約

本稿では、有限サポートを持つ分布に対するKullback-Leibler (KL)に基づく多腕バンディットアルゴリズムの有限時間解析を提示し、漸近的に最適なレグレットバウンドを達成している。この手法はKLダイバージェンスを用いて探索と活用のバランスをとる。解析により、UCB型アルゴリズムよりもタイトな有限時間のレグレットバウンドが得られ、主要な項はBurnetasとKatehakis (1996)の漸近的下界と一致する。

ABSTRACT

We consider a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit problem in the case of distributions with finite supports (not necessarily known beforehand), whose asymptotic regret matches the lower bound of \cite{Burnetas96}. Our contribution is to provide a finite-time analysis of this algorithm; we get bounds whose main terms are smaller than the ones of previously known algorithms with finite-time analyses (like UCB-type algorithms).

研究の動機と目的

KLダイバージェンスに基づくバンディットアルゴリズムの有限時間のレグレット解析を提供し、漸近的に最適なものとする。
確率的多腕バンディットにおける漸近的最適性と有限時間性能のギャップを埋める。
KLダイバージェンスとK-infダイバージェンス測度を活用することで、既存のUCB型アルゴリズムの有限時間バウンドを改善する。
サブオプティマルなアームの期待的なプル回数が、対数的項を除いて漸近的下界と一致することを確立する。
有限サポートを持つ分布への解析を拡張し、サポートが事前に未知である場合を含む。

提案手法

アルゴリズムは、アームの分布と最適な分布との間のKullback-Leiblerダイバージェンスを用いて、探索と活用のトレードオフを導く。
平均が少なくともμ*以上である分布の集合におけるKLダイバージェンスの下界を用いて信頼区間を定義し、$\mathcal{K}_{\inf}(\nu_a, \mu^*)$ と表記する。
Sanovの定理とタイプの方法を用いて、サブオプティマルなアームの経験的平均が真の平均から逸脱する確率を制御する。
重要なステップとして、サブオプティマルなアームの経験的平均が閾値を超える確率の指数的尾部を、関数$\theta_a(\gamma)$を用いてバウンドする。ここで$\theta_a(\gamma)$は、平均が少なくとも$\mu^*$以上である分布へのKLダイバージェンスの下界として定義される。
非漸近的Sanovの定理を適用して、逸脱確率を制御し、有限時間における集中バウンドを保証する。
証明により、$k$が閾値を超えた後は$\theta_a(\gamma_k)$が0から離れて保たれることを示し、レグレットバウンドの尾部和における幾何的減衰を可能にする。

実験結果

リサーチクエスチョン

RQ1KLに基づくバンディットアルゴリズムは、有限サポートを持つ分布に対して、BurnetasとKatehakis (1996)の漸近的下界と一致する有限時間のレグレットバウンドを達成できるか？
RQ2UCB型アルゴリズムと比較して、$\mathcal{K}_{\inf}$-ベースのアルゴリズムの有限時間性能は、レグレットの乗法的定数においてどのように異なるか？
RQ3$\theta_a(\gamma)$関数が正であり、0から離れて保たれる条件は何か？これにより、尾部確率における指数的減衰が保証される。
RQ4タイプの方法と非漸近的Sanovの定理は、KLに基づくバンディット戦略の有限時間バウンドを導出するために効果的に適用可能か？
RQ5一般（有限サポートでない）分布へのこの解析の拡張における制限は何か？

主な発見

アルゴリズムは、サブオプティマルなアーム$a$のプル回数の期待値が$\mathbb{E}[N_T(a)] \leq \left(\frac{1}{\mathcal{K}_{\inf}(\nu_a, \mu^*)} + o(1)\right)\log T$を満たす有限時間のレグレットバウンドを達成する。
レグレットバウンドの主要項は、UCB型アルゴリズムに依存する$\Delta_a^{-2}$と比較して小さく、本手法では$\mathcal{K}_{\inf}(\nu_a, \mu^*)$に依存する。この値は一般に大きく、よりタイトなバウンドをもたらす。
解析により、$k$が閾値$k_0$を超えた後は$\theta_a(\gamma_k)$が0から離れて保たれることを証明し、レグレット寄与の尾部和における指数的減衰を保証する。
関数$\sum_{k=1}^{T-|\mathcal{A}|} e^{-k\theta_a(\gamma_k)}$に有限上界を確立し、サブオプティマルなアームのプル確率を制御する上で重要である。
証明はPinskerの不等式と$\mathcal{K}_{\inf}$ダイバージェンスの精密な解析に依存し、$\gamma_k < \mathcal{K}_{\inf}(\nu_a, \mu^*)$のとき$\theta_a(\gamma_k)$が0から離れて保たれることを示す。
解析は、サポートが有限である分布、さらには事前に未知のサポートを持つ場合を含めても有効であり、このような条件下でも手法はロバストである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。