QUICK REVIEW

[论文解读] An Information-Theoretic Analysis of Thompson Sampling

Daniel Russo, Benjamin Van Roy|arXiv (Cornell University)|Mar 21, 2014

Advanced Bandit Algorithms Research参考文献 26被引用 57

一句话总结

本文对Thompson采样进行了信息论分析，表明其遗憾（regret）与最优动作分布的熵成比例。通过利用信息论，作者推导出依赖于硬知识和软知识的贝叶斯遗憾界，相较于以往忽略软知识的研究，提供了更紧致且更具洞察力的性能保证。

ABSTRACT

We provide an information-theoretic analysis of Thompson sampling that applies across a broad range of online optimization problems in which a decision-maker must learn from partial feedback. This analysis inherits the simplicity and elegance of information theory and leads to regret bounds that scale with the entropy of the optimal-action distribution. This strengthens preexisting results and yields new insight into how information improves performance.

研究动机与目标

开发一种将硬知识和软知识均纳入考量的Thompson采样遗憾分析，以填补现有文献中的空白。
形式化量化最优动作不确定性的信息论度量（即熵）如何影响在线决策中的学习性能。
统一分析Thompson采样在多种反馈结构中的表现，包括多臂赌博机、线性赌博机以及组合动作集。
证明信息论工具可导出更紧致、更具可解释性的遗憾界，更真实地反映现实世界的学习动态。

提出的方法

分析采用贝叶斯框架，其中对最优动作的不确定性通过动作上的后验分布进行建模。
关键界限通过Kullback–Leibler散度及其变分形式推导，将后验更新与信息增益关联起来。
对奖励噪声施加次高斯性假设，从而通过奖励估计的方差来界定每步的时间信息增益。
分析引入了一项新颖的信息论量：最优动作分布的熵，其直接控制遗憾的缩放行为。
借助信息论，该方法在多种反馈结构（包括半反馈与全信息设置）中建立了阶最优的贝叶斯遗憾界。
该方法用信息论不等式替代传统的集中不等式，从而获得更紧致且更具可解释性的界限。

实验结果

研究问题

RQ1最优动作分布的熵如何影响Thompson采样的遗憾？
RQ2信息论工具能否提供更紧致、更具可解释性的遗憾界，并使其依赖于软知识？
RQ3Thompson采样的性能如何随决策者对最优动作的不确定性而变化？
RQ4与忽略软知识的先前方法相比，引入软知识在多大程度上改善了遗憾界？
RQ5是否可以将统一的信息论分析方法应用于具有部分反馈的多样化在线优化问题？

主要发现

Thompson采样的遗憾与最优动作分布的熵成比例，形式化了对最优动作的不确定性如何影响性能。
所提出的界限是首个明确依赖于软知识（特别是智能体对最优动作的不确定性）的界限，为探索与利用之间的权衡提供了新见解。
在独立臂的多臂赌博机设置中，遗憾界在对数因子范围内为阶最优，且依赖于最优动作分布的熵。
在次高斯奖励噪声的设定下，每步的信息增益被界定为 $ 2| abla| imes ext{variance} $，从而导出紧致的遗憾界。
该分析可统一适用于多种反馈结构，包括线性赌博机、组合动作集以及半反馈设置，统一了先前的研究结果。
与忽略软知识的先前遗憾分析相比，本研究的界限更紧致，并凸显了历史数据和先验信念如何降低期望遗憾。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。