QUICK REVIEW

[論文レビュー] Further Optimal Regret Bounds for Thompson Sampling

Shipra Agrawal, Navin Goyal|arXiv (Cornell University)|Sep 15, 2012

Advanced Bandit Algorithms Research参考文献 24被引用数 303

ひとこと要約

本稿は、Thompson Sampling の新たなマルティングルールに基づくレグレット解析を提示し、問題依存の最適なレグレットバウンド $(1+\epsilon)\sum_i \frac{\ln T}{\Delta_i} + O(\frac{N}{\epsilon^2})$ と、問題独立の近似的に最適なバウンド $O(\sqrt{NT\ln T})$ の両方を確立する。これは COLT 2012 のオープン問題を解決する。解析は概念的に単純であり、ベータ分布に限らず一般の指数型分布や文脈的バンディット問題へも拡張可能で、先行研究よりもタイトな理論的保証を提供する。

ABSTRACT

Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the state of the art methods. In this paper, we provide a novel regret analysis for Thompson Sampling that simultaneously proves both the optimal problem-dependent bound of $(1+ε)\sum_i \frac{\ln T}{Δ_i}+O(\frac{N}{ε^2})$ and the first near-optimal problem-independent bound of $O(\sqrt{NT\ln T})$ on the expected regret of this algorithm. Our near-optimal problem-independent bound solves a COLT 2012 open problem of Chapelle and Li. The optimal problem-dependent regret bound for this problem was first proven recently by Kaufmann et al. [ALT 2012]. Our novel martingale-based analysis techniques are conceptually simple, easily extend to distributions other than the Beta distribution, and also extend to the more general contextual bandits setting [Manuscript, Agrawal and Goyal, 2012].

研究の動機と目的

Thompson Sampling に対して、同時に最適な問題依存バウンドと近似的に最適な問題独立バウンドを達成するタイトなレグレット解析を提供すること。
Chapelle と Li が提起した、Thompson Sampling の近似的に最適な問題独立レグレットバウンドに関する COLT 2012 のオープン問題を解決すること。
ベータ分布を超えて他の指数型分布へも拡張可能な、概念的に単純でマルティングルールに基づく解析手法を開発すること。
より一般的な文脈的バンディット問題の設定へも解析を拡張し、より広範な適用可能性を示すこと。

提案手法

サブオプティマルな腕が引かれる回数の期待値を制限するための、新たなマルティングルールに基づく解析フレームワークを開発する。
レグレットを KL 発散 $d(\mu_i, \mu_1)$ に結びつけるために、中間値 $x_i$ と $y_i$ を用いたしきい値処理を導入する。
集中不等式と指数モーメントの尾部バウンドを用いて、サブオプティマルな腕の引かれる回数の期待値を制御する。
Pinsker の不等式を活用して $\ell_2$-距離と KL 発散を関連づけ、よりタイトなバウンドを可能にする。
問題独立バウンドの導出において、最悪ケースの $\Delta_i \geq \sqrt{N\ln T / T}$ を仮定し、問題依存バウンドに代入する。
事後分布更新の構造的性質を活用することで、フレームワークがベータ分布に限らず他の分布へも拡張可能であることを示す。

実験結果

リサーチクエスチョン

RQ1Thompson Sampling は、Kaufmann らの漸近的下界に一致する最適な問題依存レグレットバウンドを達成できるか？
RQ2Thompson Sampling は、近似的に最適な問題独立レグレットバウンド $O(\sqrt{NT\ln T})$ を達成できるか？これにより COLT 2012 のオープン問題が閉じられるか？
RQ3ベータ・ベルヌーイ設定を超えて適用可能な、概念的に単純でより一般的な Thompson Sampling のレグレット解析は存在するか？
RQ4この解析は、最小限の修正で文脈的バンディット問題の設定へも拡張可能か？
RQ5事後確率マッチングフレームワークにおけるしきい値 $x_i$ と $y_i$ の選択は、バウンドにどのように依存するか？

主な発見

本稿は、Thompson Sampling に対して、最適な問題依存バウンド $(1+\epsilon)\sum_i \frac{\ln T}{\Delta_i} + O(\frac{N}{\epsilon^2})$ を確立し、漸近的下界と $1+\epsilon$ 要因の差異を除いて一致する。
これは、COLT 2012 のオープン問題を解決する、初めての近似的に最適な問題独立バウンド $O(\sqrt{NT\ln T})$ を証明する。
解析は、概念的に単純なマルティングルールに基づくフレームワークを用いており、従来の複雑な情報理論的分解を避ける。
KL 発散と集中性の性質を活用することで、ベータ分布を超える分布（例：正規分布、指数型分布族）に対しても自然に拡張可能である。
フレームワークは文脈的バンディット問題の設定へも適応可能であり、本稿の核心的アイデアは、その後の文脈的バンディットに関する研究の解析を刺激した。
サブオプティマルな腕の期待引数回数 $\mathbb{E}[k_i(T)] = O(\frac{1}{\Delta_i^2} \ln T)$ が導出され、最悪ケースの $\Delta_i$ スケーリングと組み合わせることで、全体のレグレットが $O(\sqrt{NT\ln T})$ となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。