Skip to main content
QUICK REVIEW

[论文解读] Thompson Sampling: An Asymptotically Optimal Finite Time Analysis

Emilie Kaufmann, Nathaniel Korda|arXiv (Cornell University)|May 18, 2012
Advanced Bandit Algorithms Research参考文献 11被引用 34
一句话总结

本文通过提供首个与Lai和Robbins下界相匹配的有限时间 regret 边界,证明了在伯努利奖励的随机多臂赌博机中,Thompson Sampling 是渐近最优的。分析表明,Thompson Sampling 实现了 regret 的最优对数增长速率,数值实验进一步证实其在性能上优于UCB、KL-UCB和Bayes-UCB。

ABSTRACT

The question of the optimality of Thompson Sampling for solving the stochastic multi-armed bandit problem had been open since 1933. In this paper we answer it positively for the case of Bernoulli rewards by providing the first finite-time analysis that matches the asymptotic rate given in the Lai and Robbins lower bound for the cumulative regret. The proof is accompanied by a numerical comparison with other optimal policies, experiments that have been lacking in the literature until now for the Bernoulli case.

研究动机与目标

  • 解决关于Thompson Sampling在伯努利赌博机中是否渐近最优的长期悬而未决问题。
  • 为Thompson Sampling提供一个与Lai和Robbins建立的渐近下界相匹配的有限时间 regret 分析。
  • 在有限时域设置下,通过实证验证Thompson Sampling相对于其他最优策略(包括KL-UCB和Bayes-UCB)的性能。
  • 证明Thompson Sampling在无需复杂置信区间或分位数计算的情况下,实现了最优 regret 速率。

提出的方法

  • 作者利用集中不等式和后验尾概率控制,推导出次优臂被抽取次数的有限时间上界。
  • 提出一种新颖的分析技术,控制次优臂被抽取次数的尾部行为,从而实现更紧致的 regret 上界。
  • 证明过程利用了Beta-伯努利共轭先验的性质,并通过比较Thompson样本与后验分位数的偏离程度进行偏差分析。
  • 该分析借鉴了Agrawal和Goyal关于饱和臂的研究思想,但将其扩展至控制尾部概率而非仅期望值。
  • 方法中还包括与Bayes-UCB指标的比较,以界定向Thompson样本与后验分位数之间的偏离程度。
  • 数值实验通过20,000至50,000次的蒙特卡洛模拟,比较了在有限时域下各策略的累积 regret。

实验结果

研究问题

  • RQ1Thompson Sampling 是否如Lai和Robbins的 regret 下界所定义的那样,在伯努利赌博机中渐近最优?
  • RQ2能否为Thompson Sampling 建立一个实现最优对数增长速率的有限时间 regret 分析?
  • RQ3在实践中,Thompson Sampling 相较于KL-UCB和Bayes-UCB等其他最优策略,在累积 regret 方面表现如何?
  • RQ4后验尾部控制在实现Thompson Sampling的渐近最优性中起到何种作用?

主要发现

  • Thompson Sampling 实现了最优的渐近 regret 速率,与Lai和Robbins的下界完全匹配,其有限时间 regret 上界形式为 (1+ε)∑(Δa/K(μa,μ*))lnT + o(lnT)。
  • 该有限时间 regret 上界比以往针对Thompson Sampling 的结果更紧致,后者仅能达到 1/Δa²lnT 的量级。
  • 数值实验表明,对于大时域,Thompson Sampling 在累积 regret 方面优于KL-UCB和Bayes-UCB,尤其在臂均值差距较小时表现更优。
  • Thompson Sampling 是最易实现的最优策略,每轮每臂仅需一次后验抽样,而KL-UCB和Bayes-UCB则需求解优化问题或分位数计算。
  • 该算法在不同奖励量级和臂间差距下均表现出稳健性能,在具有不同 μ 值的10臂赌博机设置中,始终表现出一致的优越性。
  • 该证明技术通过控制次优臂被抽取次数的尾部概率,实现了更简洁、更直接的有限时间分析,其方法论与UCB风格方法相当。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。