[论文解读] Unimodal Bandits: Regret Lower Bounds and Optimal Algorithms
本文提出 OSUB,一种针对单峰 bandits 的最优算法,其渐近遗憾与一项与臂的数量无关的新下界相匹配。通过有针对性地采样以利用单峰结构,OSUB 在时间跨度相对于臂数较大时,显著优于现有方法(如 LSE)。
We consider stochastic multi-armed bandits where the expected reward is a unimodal function over partially ordered arms. This important class of problems has been recently investigated in (Cope 2009, Yu 2011). The set of arms is either discrete, in which case arms correspond to the vertices of a finite graph whose structure represents similarity in rewards, or continuous, in which case arms belong to a bounded interval. For discrete unimodal bandits, we derive asymptotic lower bounds for the regret achieved under any algorithm, and propose OSUB, an algorithm whose regret matches this lower bound. Our algorithm optimally exploits the unimodal structure of the problem, and surprisingly, its asymptotic regret does not depend on the number of arms. We also provide a regret upper bound for OSUB in non-stationary environments where the expected rewards smoothly evolve over time. The analytical results are supported by numerical experiments showing that OSUB performs significantly better than the state-of-the-art algorithms. For continuous sets of arms, we provide a brief discussion. We show that combining an appropriate discretization of the set of arms with the UCB algorithm yields an order-optimal regret, and in practice, outperforms recently proposed algorithms designed to exploit the unimodal structure.
研究动机与目标
- 解决在部分有序的臂上具有单峰奖励结构的多臂 bandits 问题,其中期望奖励在单一最优臂处达到峰值。
- 推导出与图大小或臂数无关的单峰 bandits 渐近遗憾下界,反映该问题的内在难度。
- 提出 OSUB,一种新颖算法,通过基于其与当前最优臂估计值的接近程度来最优采样臂,从而实现该下界。
- 分析 OSUB 在奖励随时间平滑演化但仍保持单峰结构的非平稳环境中的性能。
- 通过理论与实验表明,基于离散化的 UCB 方法在连续设置下可达到阶最优,并优于专门设计的单峰算法。
提出的方法
- 使用信息论论证推导渐近遗憾下界,表明最优遗憾仅依赖于与最优臂的差距,而不依赖于臂的数量或图结构。
- 设计 OSUB,通过聚焦于当前表现最佳臂的邻域来平衡探索与利用,其采样策略基于置信区间选择规则。
- 采用两阶段采样策略:第一阶段,探索当前最佳估计值邻域内的臂;第二阶段,通过对数采样调度聚焦于有希望的区域以精炼估计。
- 应用有限时间遗憾分析,推导出上界 $ O( au eta ho au + K) $,其中 $ au $ 为时间跨度,$ eta $ 为最大度数,$ K $ 为臂的数量。
- 通过建模平滑时变奖励,将分析扩展至非平稳环境,并证明在该动态下 OSUB 仍能保持次线性遗憾。
- 针对连续臂,提出一种离散化方案与 UCB 结合,证明其阶最优性,并表明其在实际中优于专用的单峰算法。
实验结果
研究问题
- RQ1与臂数或图结构无关的单峰 bandits 的基本渐近遗憾下界是什么?
- RQ2能否设计一种算法,通过利用奖励的单峰结构来实现该下界?
- RQ3与 LSE 等现有算法相比,OSUB 的遗憾如何随臂数和时间跨度变化?
- RQ4在奖励随时间平滑演化但保持单峰结构的非平稳环境中,OSUB 的性能如何?
- RQ5将连续臂简单离散化后结合 UCB,能否实现阶最优遗憾并优于专门设计的单峰算法?
主要发现
- 单峰 bandits 的渐近遗憾下界为 $ O( au eta ho au) $,与经典 MAB 下界一致,且不依赖于臂数或图大小。
- OSUB 实现了该下界,使其渐近最优,其遗憾与臂数无关。
- OSUB 的有限时间遗憾上界为 $ O( au eta ho au + K) $,当 $ T o au $ 且 $ T o au $ 时,优于 LSE 的 $ O( au eta D au) $,尤其在 $ T $ 较大时优势显著。
- 在奖励平滑演化但仍保持单峰结构的非平稳环境中,OSUB 保持次线性遗憾,表现出对时变奖励的鲁棒性。
- 对于连续臂,简单地对区间进行离散化并结合 UCB 可实现阶最优遗憾,并在实践中优于专用的单峰算法。
- 数值实验表明,当臂数相对于时间跨度较小时,OSUB 显著优于 LSE 和经典 UCB。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。