QUICK REVIEW

[論文レビュー] Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays

Junpei Komiyama, Junya Honda|arXiv (Cornell University)|Jun 2, 2015

Advanced Bandit Algorithms Research被引用数 72

ひとこと要約

本稿では、1ラウンドあたり複数のアームを引くstochastic multi-armed bandit問題に対して、計算的に効率的なアルゴリズムであるMultiple-Play Thompson Sampling (MP-TS) を提案する。MP-TSはAnantharamら（1987）が示した漸近的下界と一致する最適なレグレットバウンドを達成することが証明されており、二値報酬に対して最適性と計算効率の両方を満たす最初のアルゴリズムである。

ABSTRACT

We discuss a multiple-play multi-armed bandit (MAB) problem in which several arms are selected at each round. Recently, Thompson sampling (TS), a randomized algorithm with a Bayesian spirit, has attracted much attention for its empirically excellent performance, and it is revealed to have an optimal regret bound in the standard single-play MAB problem. In this paper, we propose the multiple-play Thompson sampling (MP-TS) algorithm, an extension of TS to the multiple-play MAB problem, and discuss its regret analysis. We prove that MP-TS for binary rewards has the optimal regret upper bound that matches the regret lower bound provided by Anantharam et al. (1987). Therefore, MP-TS is the first computationally efficient algorithm with optimal regret. A set of computer simulations was also conducted, which compared MP-TS with state-of-the-art algorithms. We also propose a modification of MP-TS, which is shown to have better empirical performance.

研究の動機と目的

複数アーム選択のstochastic multi-armed bandit (MP-MAB) 問題において、最適なレグレットバウンドを達成する計算的に効率的なアルゴリズムの欠落を埋める。
1ラウンドあたり複数のアームを選択する設定にThompson Samplingを拡張し、探索と活用のバランスを取る。
提案されたMP-TSアルゴリズムが、Anantharam ら（1987）が確立した下界と一致する最適なレグレット上界を達成することを証明する。
シミュレーションを通じて、MP-TSが最先端のアルゴリズムを上回ることを実証し、改良版ではさらに優れた性能を示す。
特に二値報酬分布に対して、レグレットスケーリングの観点からMP-TSの最適性に理論的根拠を提示する。

提案手法

期待報酬の事後分布からのサンプリングに基づき、複数のアームを選択するMP-TSを提案する。これはThompson Samplingの複数アーム拡張である。
Bayesian事後分布のサンプリングを用いて、複数アーム設定における探索と活用のバランスを保つ。
集中不等式と大偏差限界を用いて、非最適アームの選択確率を制御する。
特に$\mu_i^{(+)}$および$\mu_L^{(-)}$といった重要なしきい値を定義・使用し、非最適アームの期待選択回数を制限する。
Kullback-Leibler発散$d(\cdot, \cdot)$を用いて報酬分布間の分離度を定量化し、レグレットバウンドを導出する。
十分なサンプリング回数のしきい値$N_i^{\mathrm{suf}}(T)$を用いて、アーム$i$の選択回数を制御し、対数的レグレットスケーリングを保証する。

実験結果

リサーチクエスチョン

RQ1Thompson Samplingは、複数アーム選択のMP-MAB設定に拡張可能であり、最適なレグレット性能を維持できるか？
RQ2提案されたMP-TSアルゴリズムは、Anantharam ら（1987）が確立したMP-MAB問題の漸近的レグレット下界に一致するか？
RQ3MP-TSは、以前のアルゴリズムが非最適な定数を有するのとは異なり、最適なレグレットを達成しながら計算的に効率的か？
RQ4MP-TSは、累積レグレットと収束速度の観点から、最先端のアルゴリズムと比較してどのように性能を発揮するか？
RQ5MP-TSの改良版は、理論的最適性を損なわずに、実験的性能をさらに向上させられるか？

主な発見

MP-TSは二値報酬に対して最適なレグレット上界を達成し、Anantharam ら（1987）の漸近的下界と一致する。
MP-TSのレグレットは、定数因子が情報理論的下界と一致する$O(\log T)$のスケーリングを示す。
MP-TSは、複数アーム選択のMAB問題において、この最適なレグレットバウンドを達成する最初の計算的に効率的な手法である。
シミュレーションにおいて、元のMP-TSと比較して、改良版MP-TSがより優れた実験的性能を示す。
理論的分析により、非最適アームの期待選択回数が$O(\log T)$で抑えられ、定数が下界と一致することが確認された。
証明は、KL発散と大偏差不等式を用いた尾確率のバウンドに依拠しており、サンプリングしきい値の精密な制御が行われている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。