[论文解读] Thompson Sampling for 1-Dimensional Exponential Family Bandits
本文建立了在1维指数族 bandit 问题中使用 Jeffreys 先验的 Thompson Sampling 的渐近最优性,证明该算法达到了信息论下界对遗憾的限制。分析依赖于指数族中后验分布的新型有限时间指数集中不等式,将理论保证从伯努利情形扩展至重尾和一般指数族分布。
Thompson Sampling has been demonstrated in many complex bandit models, however the theoretical guarantees available for the parametric multi-armed bandit are still limited to the Bernoulli case. Here we extend them by proving asymptotic optimality of the algorithm using the Jeffreys prior for 1-dimensional exponential family bandits. Our proof builds on previous work, but also makes extensive use of closed forms for Kullback-Leibler divergence and Fisher information (and thus Jeffreys prior) available in an exponential family. This allow us to give a finite time exponential concentration inequality for posterior distributions on exponential families that may be of interest in its own right. Moreover our analysis covers some distributions for which no optimistic algorithm has yet been proposed, including heavy-tailed exponential families.
研究动机与目标
- 将 Thompson Sampling 的理论保证从伯努利情形扩展至一般1维指数族分布。
- 在更广泛的 bandit 问题类别中,建立使用 Jeffreys 先验的 Thompson Sampling 的渐近最优性。
- 为指数族中的后验分布推导一个有限时间指数集中不等式,该结果本身具有独立兴趣。
- 证明即使在尚未提出乐观算法的重尾指数族(如逆高斯或帕累托分布)中,该算法依然保持最优。
提出的方法
- 作者使用 Jeffreys 先验,该先验由指数族中的费舍尔信息量和 KL 散度导出,以确保客观的先验设定。
- 他们利用 KL 散度和费舍尔信息量的闭式表达式,为指数族中参数的后验分布推导出有限时间指数集中界。
- 证明依赖于累积生成函数的凸性以及自然指数族参数化下的性质。
- 一个关键技术步骤是通过积分不等式和连续性论证,对后验概率中与真实参数 KL 散度较小的参数区域进行有界。
- 分析避免使用伯努利特有技术,而是利用指数族的一般结构及其自然 sufficient 统计量的性质。
- 理论结果基于一个新颖的后验集中不等式(定理 4),该不等式是证明渐近最优性的核心。
实验结果
研究问题
- RQ1使用 Jeffreys 先验的 Thompson Sampling 是否在1维指数族 bandit 问题中达到遗憾的渐近下界?
- RQ2能否为指数族中后验分布推导出有限时间指数集中不等式?
- RQ3在尚未提出乐观算法的重尾指数族分布(如逆高斯或帕累托分布)中,Thompson Sampling 是否仍具有渐近最优性?
- RQ4Jeffreys 先验在实现渐近最优性中起什么作用?其他先验是否也足够?
主要发现
- 使用 Jeffreys 先验的 Thompson Sampling 实现了渐近最优性,当 $ T \to \infty $ 时,遗憾增长为 $ \sum_{a=1}^{K} \frac{\mu(\theta_{a^*}) - \mu(\theta_a)}{\text{K}(\theta_a, \theta_{a^*})} \cdot \ln T $。
- 本文推导出指数族中后验分布的有限时间指数集中界,该结果新颖,可能在 bandit 问题之外也具有应用价值。
- 该分析适用于重尾指数族(如逆高斯分布),在这些分布中尚未提出乐观算法。
- 证明通过利用指数族的一般性质(包括 KL 散度和费舍尔信息量的闭式表达式)避免了伯努利特有论证。
- 结果表明,Jeffreys 先验确保后验足够快地集中在最优臂上,从而实现渐近最优性。
- 理论保证对先验选择具有鲁棒性,只要先验满足对数集中条件:$ -\ln \left( \int_{\theta': \text{K}(\theta_a, \theta') \leq n^{-2}} \pi_0(\theta') d\theta' \right) = o(n) $。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。