QUICK REVIEW

[论文解读] A Tutorial on Thompson Sampling

Daniel Russo, Benjamin Van Roy|arXiv (Cornell University)|Jul 7, 2017

Advanced Bandit Algorithms Research参考文献 71被引用 39

一句话总结

本教程将 Thompson Sampling (TS) 作为一种计算高效的序列决策算法进行介绍，通过从后验分布中采样，在探索与利用之间实现平衡。它展示了 TS 在多种问题中的有效性——包括多臂赌博机、最短路径、推荐系统和强化学习——同时分析其局限性，并与 UCB 和信息导向采样等替代方法进行比较。

ABSTRACT

Thompson sampling is an algorithm for online decision problems where actions are taken sequentially in a manner that must balance between exploiting what is known to maximize immediate performance and investing to accumulate new information that may improve future performance. The algorithm addresses a broad range of problems in a computationally efficient manner and is therefore enjoying wide use. This tutorial covers the algorithm and its application, illustrating concepts through a range of examples, including Bernoulli bandit problems, shortest path problems, product recommendation, assortment, active learning with neural networks, and reinforcement learning in Markov decision processes. Most of these problems involve complex information structures, where information revealed by taking an action informs beliefs about other actions. We will also discuss when and why Thompson sampling is or is not effective and relations to alternative algorithms.

研究动机与目标

为机器学习和决策理论领域的研究人员和从业者提供一份全面且易于理解的 Thompson Sampling 教程。
说明 TS 如何在动作之间揭示相关联信息的复杂信息结构中，平衡探索与利用。
评估 TS 在在线广告、产品推荐和强化学习等现实应用场景中的性能与局限性。
将 TS 与替代算法（如上界置信区间法 Upper Confidence Bound, UCB）和信息导向采样（Information-Directed Sampling, IDS）进行比较，突出其在计算成本与统计效率之间的权衡。
阐明 TS 在何种情况下有效，以及在何种情况下可能失效，特别是在高维或结构化信息依赖问题中。

提出的方法

Thompson Sampling 通过从动作价值的后验分布中采样来选择动作，基于当前信念偏好期望奖励更高的动作。
它使用贝叶斯更新来在每次动作和观测后维护并改进对未知参数（例如伯努利赌博机中的成功概率）的信念。
对于最短路径或组合优化等结构化问题，TS 将先验信念扩展至整个动作集合，并利用后验采样指导探索。
该算法被应用于具有复杂信息结构的问题，如马尔可夫决策过程和神经网络主动学习，其中某一动作的信息可影响对其他动作的信念。
教程通过伯努利赌博机、最短路径、产品组合和神经网络主动学习等示例，展示 TS 的实现方式和行为特征。
它将 TS 与 UCB 和 IDS 进行比较，分析其理论基础、计算复杂度，以及在遗憾度和信息增益方面的性能表现。

实验结果

研究问题

RQ1Thompson Sampling 如何在奖励分布未知的序列决策问题中有效平衡探索与利用？
RQ2在哪些类型的问题中，Thompson Sampling 无法高效探索，原因是什么？
RQ3在遗憾度、计算成本和统计效率方面，Thompson Sampling 与上界置信区间法（UCB）和信息导向采样（IDS）相比如何？
RQ4Thompson Sampling 在结构化或高维信息设置下的理论与实际局限性是什么？
RQ5在哪些现实应用场景中——如在线广告、推荐系统或强化学习——Thompson Sampling 展现出优异性能？

主要发现

在具有独立臂和共轭先验的标准多臂赌博机问题中，Thompson Sampling 可实现接近最优的遗憾界，例如在 beta-伯努利赌博机中。
在具有结构化信息的问题中（如最短路径或产品组合），TS 可能无法高效探索，因为它可能不会优先选择能最大化关于未知类型的的信息增益的动作。
例如，在顾客类型组合优化问题中，TS 可能反复推荐同一类商品，而通过多样化组合可使学习速度加快 m 倍（m 为未测试类型数量）。
信息导向采样（IDS）通过最小化信息比率，在此类结构化问题中优于 TS，但其计算复杂度显著更高。
尽管在某些结构化场景中存在局限性，TS 仍因计算简单和在多样化应用中表现出色的实证性能而被广泛使用。
本教程建立了 TS 与 UCB 之间的正式联系，表明两者均旨在平衡探索与利用，但采用不同机制：采样 vs. 置信区间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。