QUICK REVIEW

[论文解读] Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays

Junpei Komiyama, Junya Honda|arXiv (Cornell University)|Jun 2, 2015

Advanced Bandit Algorithms Research被引用 72

一句话总结

本文提出多重选择贝叶斯采样（MP-TS），一种计算高效的算法，用于解决每轮可选择多个臂的随机多臂赌博机问题。该文证明MP-TS实现了与Anantharam等人（1987年）建立的渐近下界相匹配的最优后悔界，使其成为首个在二值奖励下同时具备最优性与计算效率的此类算法。

ABSTRACT

We discuss a multiple-play multi-armed bandit (MAB) problem in which several arms are selected at each round. Recently, Thompson sampling (TS), a randomized algorithm with a Bayesian spirit, has attracted much attention for its empirically excellent performance, and it is revealed to have an optimal regret bound in the standard single-play MAB problem. In this paper, we propose the multiple-play Thompson sampling (MP-TS) algorithm, an extension of TS to the multiple-play MAB problem, and discuss its regret analysis. We prove that MP-TS for binary rewards has the optimal regret upper bound that matches the regret lower bound provided by Anantharam et al. (1987). Therefore, MP-TS is the first computationally efficient algorithm with optimal regret. A set of computer simulations was also conducted, which compared MP-TS with state-of-the-art algorithms. We also propose a modification of MP-TS, which is shown to have better empirical performance.

研究动机与目标

填补在多重选择随机多臂赌博机（MP-MAB）问题中，能够实现最优后悔界且计算高效的算法之间的空白。
将贝叶斯采样扩展至多重选择场景，即每轮选择多个臂，以平衡探索与利用。
证明所提出的MP-TS算法实现了与Anantharam等人（1987年）建立的下界相匹配的最优后悔上界。
通过实验表明，MP-TS在模拟中优于当前最先进的算法，且其改进版本性能更优。
从理论上证明MP-TS在后悔尺度上的最优性，尤其针对二值奖励分布。

提出的方法

提出MP-TS，即贝叶斯采样的多重选择扩展，基于各臂期望奖励的后验样本选择多个臂。
利用贝叶斯后验采样指导臂的选择，在多重选择设置中保持探索与利用的平衡。
应用集中不等式和大偏差界，控制选择次优臂的概率。
定义并使用关键阈值，如 $\mu_i^{(+)}$ 和 $\mu_L^{(-)}$，以限制次优臂的期望选择次数。
采用Kullback-Leibler散度 $d(\cdot, \cdot)$ 量化奖励分布之间的分离程度，并推导后悔界。
使用充分采样阈值 $N_i^{\mathrm{suf}}(T)$ 控制臂 $i$ 的选择次数，确保后悔界呈对数尺度。

实验结果

研究问题

RQ1贝叶斯采样能否在保持最优后悔性能的前提下，被扩展至多重选择MAB场景？
RQ2所提出的MP-TS算法是否实现了Anantharam等人（1987年）为MP-MAB问题建立的渐近后悔下界？
RQ3MP-TS是否在实现最优后悔的同时具备计算效率，而不同于以往具有次优常数的算法？
RQ4在累积后悔和收敛速度方面，MP-TS与当前最先进的算法相比表现如何？
RQ5MP-TS的改进版本是否能在不牺牲理论最优性的情况下进一步提升实验性能？

主要发现

对于二值奖励，MP-TS实现了最优的后悔上界，与Anantharam等人（1987年）的渐近下界一致。
MP-TS的后悔界按 $O(\log T)$ 刻画，常数因子与信息论下界完全匹配。
该算法是首个在多重选择MAB问题中实现此最优后悔界的计算高效方法。
模拟结果表明，MP-TS的改进版本在实验性能上优于原始MP-TS。
理论分析确认，次优臂的期望选择次数被限制在 $O(\log T)$ 以内，且常数与下界一致。
证明依赖于使用KL散度和大偏差不等式控制尾部概率，并对采样阈值进行精细控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。