QUICK REVIEW

[論文レビュー] Thompson Sampling: An Asymptotically Optimal Finite Time Analysis

Emilie Kaufmann, Nathaniel Korda|arXiv (Cornell University)|May 18, 2012

Advanced Bandit Algorithms Research参考文献 11被引用数 34

ひとこと要約

この論文は、ベルヌーイ報酬を持つ確率的マルチアームバンディット問題において、Thompson Sampling が漸近的に最適であることを証明しており、Lai と Robbins が示した下界に一致する最初の有限時間レギュレートバウンドを提供している。解析により、Thompson Sampling が最適な対数的成長率のレギュレートを達成することが示され、数値実験でもUCB、KL-UCB、Bayes-UCBよりも優れた性能が確認された。

ABSTRACT

The question of the optimality of Thompson Sampling for solving the stochastic multi-armed bandit problem had been open since 1933. In this paper we answer it positively for the case of Bernoulli rewards by providing the first finite-time analysis that matches the asymptotic rate given in the Lai and Robbins lower bound for the cumulative regret. The proof is accompanied by a numerical comparison with other optimal policies, experiments that have been lacking in the literature until now for the Bernoulli case.

研究の動機と目的

Thompson Sampling がベルヌーイバンディット問題において漸近的に最適であるかどうかという長年の未解決問題を解消すること。
Lai と Robbins が確立した漸近的下界に一致する、Thompson Sampling の有限時間におけるレギュレート解析を提供すること。
有限時間の設定において、KL-UCB や Bayes-UCB などの他の最適方策と比較して、Thompson Sampling の性能を実証的に検証すること。
複雑な信頼区間や分位数計算を必要とせずに、Thompson Sampling が最適なレギュレートレートを達成できることを示すこと。

提案手法

濃度不等式と事後確率の尾確率制御を用いて、非最適アームの期待的選択回数に対する有限時間上界を導出する。
非最適アームの選択回数の尾挙動を制御する新しい解析手法を導入し、より緊密なレギュレートバウンドを可能にする。
ベータ-ベルヌーイの共役事前分布の性質を活用し、Thompson サンプルと事後分位数の乖離を分析する。
Agrawal と Goyal の「飽和アーム」に関する研究の概念を援用するが、期待値の制御にとどまらず、尾確率の制御へと拡張する。
Thompson サンプルと事後分位数の乖離をバウンディングするために、Bayes-UCB インデックスとの比較を含む。
モンテカルロシミュレーションを用いて、20,000～50,000回の試行を実施し、有限時間における累積レギュレートをさまざまな方策と比較する。

実験結果

リサーチクエスチョン

RQ1Thompson Sampling は、Lai と Robbins が示したレギュレート下界に一致するという意味で、ベルヌーイバンディット問題において漸近的に最適であるか？
RQ2Thompson Sampling に対して、最適な対数的成長率に一致する有限時間におけるレギュレート解析を確立できるか？
RQ3実際の応用において、KL-UCB や Bayes-UCB などの他の最適方策と比較して、Thompson Sampling の累積レギュレートはどのように振る舞うか？
RQ4事後確率の尾確率制御は、Thompson Sampling が漸近的に最適性を達成する上で果たす役割は何か？

主な発見

Thompson Sampling は、Lai と Robbins が示した下界に一致する最適な漸近的レギュレートレートを達成しており、有限時間におけるレギュレートバウンドは (1+ε)∑(Δa/K(μa,μ*))lnT + o(lnT) の形をとる。
従来の Thompson Sampling の結果に比べ、より緊密な有限時間レギュレートバウンドが得られており、それらは 1/Δa²lnT のスケーリングにとどまっていた。
数値実験により、特にアーム平均値の差が小さい問題において、Thompson Sampling が KL-UCB や Bayes-UCB よりも累積レギュレートが優れていることが示された。
Thompson Sampling は、1ラウンドあたり1回の事後分布サンプリングのみを必要とするため、実装が最も簡単な最適方策であり、KL-UCB や Bayes-UCB が要する最適化問題や分位数計算を必要としない。
報酬の大きさやアーム間の差にかかわらず、10アームバンディット設定において一貫して優れた性能を示し、μ の値が異なる場合にも安定した優位性を示した。
非最適アームの選択回数の尾確率を制御するという証明手法により、UCB風の手法と同等にシンプルかつ直接的な有限時間解析が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。