[论文解读] Lipschitz Bandits: Regret Lower Bounds and Optimal Algorithms
本文提出 OSLB(Optimal Sampling for Lipschitz Bandits),一种针对具有 Lipschitz 连续期望奖励的随机多臂赌博机问题的渐近最优算法。该文推导了问题相关的后悔下界,并证明 OSLB 可以达到该下界;同时提出了 CKL-UCB 算法,以降低计算复杂度,利用一种新颖的加权 KL 散度和的集中不等式,实现结构化赌博机设置下的紧致置信区间。
We consider stochastic multi-armed bandit problems where the expected reward is a Lipschitz function of the arm, and where the set of arms is either discrete or continuous. For discrete Lipschitz bandits, we derive asymptotic problem specific lower bounds for the regret satisfied by any algorithm, and propose OSLB and CKL-UCB, two algorithms that efficiently exploit the Lipschitz structure of the problem. In fact, we prove that OSLB is asymptotically optimal, as its asymptotic regret matches the lower bound. The regret analysis of our algorithms relies on a new concentration inequality for weighted sums of KL divergences between the empirical distributions of rewards and their true distributions. For continuous Lipschitz bandits, we propose to first discretize the action space, and then apply OSLB or CKL-UCB, algorithms that provably exploit the structure efficiently. This approach is shown, through numerical experiments, to significantly outperform existing algorithms that directly deal with the continuous set of arms. Finally the results and algorithms are extended to contextual bandits with similarities.
研究动机与目标
- 建立离散 Lipschitz 赌博机的渐近、问题相关的后悔下界,其中期望奖励是动作的 Lipschitz 连续函数。
- 设计并分析 OSLB 算法,该算法通过匹配推导出的后悔下界,实现渐近最优性。
- 提出 CKL-UCB 作为 OSLB 的计算效率更高的替代方案,同时通过结构化探索保持优异性能。
- 通过离散化方法将框架扩展至连续 Lipschitz 赌博机,并应用 OSLB 或 CKL-UCB,证明其性能显著优于直接处理连续情况的方法。
- 将结果推广至具有相似性结构的上下文赌博机,扩展所提算法的适用范围。
提出的方法
- 基于真实奖励结构和 Lipschitz 连续性,推导离散 Lipschitz 赌博机的问题相关渐近后悔下界。
- 提出 OSLB 算法,利用线性规划方法,根据基于 KL 散度推导出的置信区间,最优地分配采样资源。
- 提出一种新颖的加权 KL 散度和的集中不等式,用于经验分布与真实奖励分布之间的 KL 散度,实现紧致的置信区间边界。
- 在将动作空间离散化后,将 OSLB 和 CKL-UCB 应用于连续赌博机,利用过往观测揭示的 Lipschitz 结构。
- 结合新集中不等式进行有限时间后悔分析,以界定 OSLB 和 CKL-UCB 的性能,证明其收敛至下界。
- 通过建模上下文与动作之间的相似性,将框架扩展至上下文赌博机,将 OSLB 和 CKL-UCB 的原理适配至该场景。
实验结果
研究问题
- RQ1离散 Lipschitz 赌博机的渐近后悔下界是什么?它如何依赖于具体的奖励结构?
- RQ2能否设计一种算法,使其后悔在渐近意义上匹配所推导出的下界?
- RQ3如何在离散和连续赌博机问题中高效利用奖励函数的 Lipschitz 结构?
- RQ4OSLB 和 CKL-UCB 的有限时间性能保证是什么?与现有算法相比表现如何?
- RQ5所提出的框架能否推广至具有相似性结构的上下文赌博机?
主要发现
- 本文建立了离散 Lipschitz 赌博机的问题相关渐近后悔下界,明确依赖于真实奖励值和 Lipschitz 结构。
- OSLB 被证明是渐近最优的,其后悔在时间跨度趋于无穷时与推导出的下界一致。
- OSLB 的有限时间后悔被界定为 $ C^{ heta}( heta)(1+\theta)\tfrac{\text{log}(T)}{\text{log}(T)} + O(\text{log log}(T)) $,且当 $ \theta \to 0 $ 时收敛至下界。
- CKL-UCB 在计算复杂度低于 OSLB 的同时,仍能有效利用 Lipschitz 结构,表现出优异性能。
- 数值实验表明,对连续动作空间进行离散化后应用 OSLB 或 CKL-UCB,显著优于直接处理连续动作的算法。
- 所提出的加权 KL 散度和的集中不等式是一种通用工具,可应用于涉及指数族分布的其他结构化赌博机问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。