QUICK REVIEW

[論文レビュー] Thompson Sampling for Contextual Bandits with Linear Payoffs

Shipra Agrawal, Navin Goyal|arXiv (Cornell University)|Sep 15, 2012

Advanced Bandit Algorithms Research参考文献 30被引用数 547

ひとこと要約

本稿では、線形報酬関数を有する文脈的バンディット問題に対して、ガウス的事前分布と尤度関数を用いて探索と活用のバランスをとる一般化されたトマソンサンプリングアルゴリズムを提案し、その分析を行う。本稿は、$ ilde{O}(d^{3/2}ackslashackslashsqrt{T})$ の高確率的レギュレーションバウンドを初めて確立し、計算的に効率的なアルゴリズムの既知の最良性能と一致しており、情報理論的下界から$ackslashackslashsqrt{d}$ 要因以内である。

ABSTRACT

Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the state-of-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied versions of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of $ ilde{O}(d^{3/2}\sqrt{T})$ (or $ ilde{O}(d\sqrt{T \log(N)})$), which is the best regret bound achieved by any computationally efficient algorithm available for this problem in the current literature, and is within a factor of $\sqrt{d}$ (or $\sqrt{\log(N)}$) of the information-theoretic lower bound for this problem.

研究の動機と目的

線形報酬関数を有する確率的文脈的バンディット問題におけるトマソンサンプリングの最初の理論的レギュレーション保証を提供すること。
実験的成果が得られていたが理論的裏付けが不足していた文脈的設定におけるトマソンサンプリングの性能に関する理論的ギャップを埋めること。
この問題における情報理論的下界から$ackslashackslashsqrt{d}$ 要因以内に収まる、高確率的レギュレーションバウンドを確立すること。
従来の手法よりも単純かつより汎用性の高い、マーティングルに基づく新たな解析技術を開発すること。
標準的なマルチアームバンディット設定を超えて、線形モデルを有するより複雑な文脈的設定へのトマソンサンプリングの適用範囲を拡張すること。

提案手法

未知のパラメータ $\mu \in \mathbb{R}^d$ に対してガウス的事前分布を用い、文脈 $b_i$ が与えられたときの報酬に対してガウス的尤度関数を用いる。
各ラウンドにおいて、後方分布からパラメータ $\tilde{\mu}(t)$ をサンプリングし、期待報酬 $b_i^T \tilde{\mu}(t)$ が最大となるアームを選択する。
推定パラメータが真の $\mu$ からどれほど逸脱するかを制御するために、新しいマーティングルに基づく集中性の議論に依存する。
推定誤差とレギュレーションをバウンドするための、ガウス確率変数の集中性および反集中性の性質を示す重要な補題を確立する。
レギュレーションは、後方分散と文脈ベクトルを含む項の和に分解され、$ackslashackslashell_2$-ノルムの集中不等式を用いてバウンドされる。
最終的なレギュレーションバウンドは、これらのバウンドをアズマ＝フーディングのような高確率的集中不等式と組み合わせることで導出される。

実験結果

リサーチクエスチョン

RQ1トマソンサンプリングは、線形報酬関数を有する文脈的バンディット問題において、証明可能な低レギュレーションを達成できるか？
RQ2この設定において、トマソンサンプリングが達成可能な最もタイトな高確率的レギュレーションバウンドは何か？
RQ3トマソンサンプリングのレギュレーションは、情報理論的下界および他の最先端のアルゴリズムと比べてどうか？
RQ4ベイジアン手法としてのトマソンサンプリングは、UCBのような頻度主義的手法と同等の理論的保証を達成できるか？
RQ5この解析手法は、非ガウス的事前分布や他のモデルクラスへも拡張可能か？

主な発見

本稿は、文脈的線形バンディット設定におけるトマソンサンプリングに対して、高確率的レギュレーションバウンド $ ilde{O}(d^{3/2}\sqrt{T})$ を確立した。
このレギュレーションバウンドは、この問題に対して計算的に効率的なアルゴリズムが達成した最良の結果である。
バウンドは情報理論的下界から $ackslashackslashsqrt{d}$ 要因以内にあり、近似的に最適性を示している。
別途、アーム数 $N$ に依存するレギュレーションバウンド $ ilde{O}(d\sqrt{T\log N})$ も導出された。
解析は頑健であり、報酬分布がガウス的でなくても、尤度関数と事前分布が集中性の性質を満たしていれば問題ない。
マーティングルに基づく解析手法は、従来のアプローチよりも単純で、拡張性にも優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。