QUICK REVIEW

[论文解读] Tight Regret Bounds for Stochastic Combinatorial Semi-Bandits

Branislav Kveton, Zheng Wen|arXiv (Cornell University)|Oct 3, 2014

Advanced Bandit Algorithms Research参考文献 12被引用 57

一句话总结

本文为随机组合半-bandit中的CombUCB1算法提供了紧致的遗憾界，证明了其在依赖差距情况下的$O(KL(1/\Delta)\log n)$和无差距情况下的$O(\sqrt{KLn\log n})$遗憾界，这些界在对数因子范围内是最优的。该分析提出了一种新颖的技术，当多个项目观测不足时，将遗憾分布到多个项目上，显著优于以往工作，并解决了该设置下样本效率和计算效率的问题。

ABSTRACT

A stochastic combinatorial semi-bandit is an online learning problem where at each step a learning agent chooses a subset of ground items subject to constraints, and then observes stochastic weights of these items and receives their sum as a payoff. In this paper, we close the problem of computationally and sample efficient learning in stochastic combinatorial semi-bandits. In particular, we analyze a UCB-like algorithm for solving the problem, which is known to be computationally efficient; and prove $O(K L (1 / Δ) \log n)$ and $O(\sqrt{K L n \log n})$ upper bounds on its $n$-step regret, where $L$ is the number of ground items, $K$ is the maximum number of chosen items, and $Δ$ is the gap between the expected returns of the optimal and best suboptimal solutions. The gap-dependent bound is tight up to a constant factor and the gap-free bound is tight up to a polylogarithmic factor.

研究动机与目标

通过为CombUCB1算法推导紧致的遗憾界，弥合对随机组合半-bandit样本效率理解上的差距。
在具备高效离线优化预言机的前提下，证明CombUCB1在计算和样本两方面均高效。
通过推导匹配的下界，证明遗憾上界在对数因子范围内是紧致的。
开发一种新颖的分析技术，将遗憾分布到多个观测不足的项目上，优于以往按项目单独归因遗憾的方法。
证明该算法在依赖差距和无差距两种情形下的性能均达到理论极限。

提出的方法

本文分析了CombUCB1，一种类似UCB的算法，其利用项目权重的置信上界，并通过调用离线优化预言机来选择解。
关键创新在于，不是按项目而是将遗憾集体地归因于一组观测不足的项目，从而减少遗憾界中的高估。
分析使用几何序列设定置信半径参数$\alpha_i$和$\beta_i$，在较弱约束下可获得紧致界。
采用新颖的集中不等式和事件分解方法，以界定在次优解中多个项目观测不足的概率。
通过精心构造的问题实例推导下界，证明上界在多对数因子范围内是最优的。
该框架被扩展至近似预言机和Thompson采样变体，表明其具有更广泛的应用潜力。

实验结果

研究问题

RQ1CombUCB1在依赖差距情形下的$O(KL(1/\Delta)\log n)$遗憾界是否紧致？
RQ2能否将$O(\sqrt{KLn\log n})$的无差距遗憾界改进至精确匹配$\Omega(\sqrt{KLn})$的下界？
RQ3新颖的遗憾归因技术——将遗憾分布到多个观测不足的项目上——是否优于以往的按项目分析方法？
RQ4CombUCB1在随机组合半-bandit中是否兼具计算效率和样本效率？
RQ5这些结果能否推广至近似预言机或Thompson采样变体？

主要发现

本文证明了CombUCB1在$n$步遗憾上的$O(KL(1/\Delta)\log n)$上界，该界在常数因子范围内是紧致的。
建立了$O(\sqrt{KLn\log n})$的上界，与$\Omega(\sqrt{KLn})$的下界相比仅相差$\sqrt{\log n}$因子。
作者推导出$\Omega(KL(1/\Delta)\log n)$和$\Omega(\sqrt{KLn})$的下界，确认了上界的紧致性。
新颖的遗憾归因技术——将遗憾分布到多个观测不足的项目上——使得界比以往按项目分析的方法更紧。
证明了CombUCB1在预言机高效时具有计算效率，且在样本效率方面达到近似最优遗憾。
结果表明，使用CombUCB1可同时实现随机组合半-bandit的计算和样本高效求解。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。