Skip to main content
QUICK REVIEW

[论文解读] Adapting to Delays and Data in Adversarial Multi-Armed Bandits

András György, Pooria Joulani|arXiv (Cornell University)|Oct 12, 2020
Advanced Bandit Algorithms Research被引用 5
一句话总结

本文提出了 DAda-Exp3 和 DeDa-Exp3,这两种新颖的自适应算法,用于对抗性多臂赌博机问题并支持延迟反馈。通过仅使用实时信息调节学习率,DAda-Exp3 在期望和高概率下均实现了最优的遗憾量级 O(√(log K)(KT + D)),而 DeDa-Exp3 进一步自适应于实际观测到的损失,在良性问题上将遗憾降低了数量级。其关键创新在于一种简洁的证明技术,可在无需事先知晓延迟或损失信息的前提下,实现对延迟和数据的完全自适应。

ABSTRACT

We consider the adversarial multi-armed bandit problem under delayed feedback. We analyze variants of the Exp3 algorithm that tune their step-size using only information (about the losses and delays) available at the time of the decisions, and obtain regret guarantees that adapt to the observed (rather than the worst-case) sequences of delays and/or losses. First, through a remarkably simple proof technique, we show that with proper tuning of the step size, the algorithm achieves an optimal (up to logarithmic factors) regret of order $\sqrt{\log(K)(TK + D)}$ both in expectation and in high probability, where $K$ is the number of arms, $T$ is the time horizon, and $D$ is the cumulative delay. The high-probability version of the bound, which is the first high-probability delay-adaptive bound in the literature, crucially depends on the use of implicit exploration in estimating the losses. Then, following Zimmert and Seldin [2019], we extend these results so that the algorithm can "skip" rounds with large delays, resulting in regret bounds of order $\sqrt{TK\log(K)} + |R| + \sqrt{D_{\bar{R}}\log(K)}$, where $R$ is an arbitrary set of rounds (which are skipped) and $D_{\bar{R}}$ is the cumulative delay of the feedback for other rounds. Finally, we present another, data-adaptive (AdaGrad-style) version of the algorithm for which the regret adapts to the observed (delayed) losses instead of only adapting to the cumulative delay (this algorithm requires an a priori upper bound on the maximum delay, or the advance knowledge of the delay for each decision when it is made). The resulting bound can be orders of magnitude smaller on benign problems, and it can be shown that the delay only affects the regret through the loss of the best arm.

研究动机与目标

  • 开发完全延迟自适应的赌博机算法,无需事先知晓延迟或损失分布。
  • 推导可自适应于观测到的(而非最坏情况的)延迟和损失序列的遗憾界,优于现有最小最大遗憾界。
  • 提供首个使用隐式探索的完全延迟自适应赌博机算法的高概率遗憾界。
  • 设计一种数据自适应变体,使遗憾与实际损失大小成比例,而非与最坏情况的界成比例,从而在简单问题实例上提升性能。
  • 支持跳过延迟过大的回合,降低遗憾对单个大延迟的依赖。

提出的方法

  • 提出 DAda-Exp3,作为 Exp3 的延迟自适应变体,仅使用实时反馈和延迟信息调节学习率,避免依赖 oracle 调参。
  • 在损失估计中采用隐式探索(Neu, 2015b),实现高概率遗憾界,且无需事先知晓延迟信息。
  • 引入一种受 Zimmert 和 Seldin (2019) 启发的跳过机制,使算法可跳过延迟较大的回合,降低遗憾对累积延迟 D 的依赖。
  • 提出 DeDa-Exp3,一种同时具备数据与延迟自适应特性的算法,采用类似 AdaGrad 的学习率,其依赖于累积观测损失,从而在良性问题上进一步降低遗憾。
  • 提出一种基于 FTRL 和重要性加权损失估计的新颖证明技术,用于界定涉及延迟反馈和漂移的遗憾项。
  • 应用 Jensen 不等式和损失分解,将期望遗憾界定为最优臂损失和观测损失总和的函数。

实验结果

研究问题

  • RQ1能否在不事先知晓延迟的情况下,使赌博机算法实现与累积延迟 D 相适应的最优遗憾量级?
  • RQ2能否在延迟赌博机设置中实现高概率遗憾界,且无需 oracle 调参或事先知晓延迟?
  • RQ3能否使遗憾不仅对延迟自适应,也对实际观测损失的大小自适应,从而在简单问题上提升性能?
  • RQ4与基于累积延迟的遗憾界相比,跳过延迟过大的回合是否能显著降低遗憾?
  • RQ5能否使用一种简洁的证明技术,推导出延迟 Exp3 变体的紧致遗憾界,且假设条件最少?

主要发现

  • DAda-Exp3 仅使用实时信息,实现了 O(√(log K)(KT + D)) 的期望遗憾,其量级与最优率仅相差对数因子。
  • 通过隐式探索,DAda-Exp3 首次在文献中实现了完全延迟自适应赌博机算法的高概率遗憾界。
  • 跳过机制使遗憾在期望和高概率下降低至 O(√(KT log K) + |R| + √(D̄R log K)),其中 R 为被跳过的回合集合,D̄R 为剩余回合的延迟反馈。
  • DeDa-Exp3 的遗憾界与最优臂的实际损失成比例,而非与最坏情况的界成比例,因此在良性问题上可能实现数量级的遗憾降低。
  • DeDa-Exp3 的遗憾依赖于最优臂的损失 LT,A∗ 和所有臂的损失总和,表明延迟仅通过最优臂的损失影响遗憾。
  • 分析表明,延迟对遗憾的影响仅与最优臂的损失有关,而非全部损失总和,这使得在有利实例中可实现显著改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。