Skip to main content
QUICK REVIEW

[论文解读] Tight Regret Bounds for Stochastic Combinatorial Semi-Bandits

Branislav Kveton, Zheng Wen|arXiv (Cornell University)|Oct 3, 2014
Advanced Bandit Algorithms Research参考文献 12被引用 57
一句话总结

本文为随机组合半-bandit中的CombUCB1算法提供了紧致的遗憾界,证明了其在依赖差距情况下的$O(KL(1/\Delta)\log n)$和无差距情况下的$O(\sqrt{KLn\log n})$遗憾界,这些界在对数因子范围内是最优的。该分析提出了一种新颖的技术,当多个项目观测不足时,将遗憾分布到多个项目上,显著优于以往工作,并解决了该设置下样本效率和计算效率的问题。

ABSTRACT

A stochastic combinatorial semi-bandit is an online learning problem where at each step a learning agent chooses a subset of ground items subject to constraints, and then observes stochastic weights of these items and receives their sum as a payoff. In this paper, we close the problem of computationally and sample efficient learning in stochastic combinatorial semi-bandits. In particular, we analyze a UCB-like algorithm for solving the problem, which is known to be computationally efficient; and prove $O(K L (1 / Δ) \log n)$ and $O(\sqrt{K L n \log n})$ upper bounds on its $n$-step regret, where $L$ is the number of ground items, $K$ is the maximum number of chosen items, and $Δ$ is the gap between the expected returns of the optimal and best suboptimal solutions. The gap-dependent bound is tight up to a constant factor and the gap-free bound is tight up to a polylogarithmic factor.

研究动机与目标

  • 通过为CombUCB1算法推导紧致的遗憾界,弥合对随机组合半-bandit样本效率理解上的差距。
  • 在具备高效离线优化预言机的前提下,证明CombUCB1在计算和样本两方面均高效。
  • 通过推导匹配的下界,证明遗憾上界在对数因子范围内是紧致的。
  • 开发一种新颖的分析技术,将遗憾分布到多个观测不足的项目上,优于以往按项目单独归因遗憾的方法。
  • 证明该算法在依赖差距和无差距两种情形下的性能均达到理论极限。

提出的方法

  • 本文分析了CombUCB1,一种类似UCB的算法,其利用项目权重的置信上界,并通过调用离线优化预言机来选择解。
  • 关键创新在于,不是按项目而是将遗憾集体地归因于一组观测不足的项目,从而减少遗憾界中的高估。
  • 分析使用几何序列设定置信半径参数$\alpha_i$和$\beta_i$,在较弱约束下可获得紧致界。
  • 采用新颖的集中不等式和事件分解方法,以界定在次优解中多个项目观测不足的概率。
  • 通过精心构造的问题实例推导下界,证明上界在多对数因子范围内是最优的。
  • 该框架被扩展至近似预言机和Thompson采样变体,表明其具有更广泛的应用潜力。

实验结果

研究问题

  • RQ1CombUCB1在依赖差距情形下的$O(KL(1/\Delta)\log n)$遗憾界是否紧致?
  • RQ2能否将$O(\sqrt{KLn\log n})$的无差距遗憾界改进至精确匹配$\Omega(\sqrt{KLn})$的下界?
  • RQ3新颖的遗憾归因技术——将遗憾分布到多个观测不足的项目上——是否优于以往的按项目分析方法?
  • RQ4CombUCB1在随机组合半-bandit中是否兼具计算效率和样本效率?
  • RQ5这些结果能否推广至近似预言机或Thompson采样变体?

主要发现

  • 本文证明了CombUCB1在$n$步遗憾上的$O(KL(1/\Delta)\log n)$上界,该界在常数因子范围内是紧致的。
  • 建立了$O(\sqrt{KLn\log n})$的上界,与$\Omega(\sqrt{KLn})$的下界相比仅相差$\sqrt{\log n}$因子。
  • 作者推导出$\Omega(KL(1/\Delta)\log n)$和$\Omega(\sqrt{KLn})$的下界,确认了上界的紧致性。
  • 新颖的遗憾归因技术——将遗憾分布到多个观测不足的项目上——使得界比以往按项目分析的方法更紧。
  • 证明了CombUCB1在预言机高效时具有计算效率,且在样本效率方面达到近似最优遗憾。
  • 结果表明,使用CombUCB1可同时实现随机组合半-bandit的计算和样本高效求解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。