Skip to main content
QUICK REVIEW

[论文解读] Bounded Regret for Finite-Armed Structured Bandits

Tor Lattimore, Rémi Munos|arXiv (Cornell University)|Nov 11, 2014
Advanced Bandit Algorithms Research参考文献 18被引用 82
一句话总结

本文提出了一种基于UCB的新型算法,用于有限臂结构化Bandit问题,其中臂的奖励依赖于一个共享参数,在标准UCB算法导致对数 regret 的情形下,该算法实现了有界的(有限的)期望累积 regret。关键贡献在于一种结构化的探索策略,通过利用已知的奖励依赖关系,即使在未知最优臂回报或与次优臂最小差距的情况下,也能实现有限 regret。

ABSTRACT

We study a new type of K-armed bandit problem where the expected return of one arm may depend on the returns of other arms. We present a new algorithm for this general class of problems and show that under certain circumstances it is possible to achieve finite expected cumulative regret. We also give problem-dependent lower bounds on the cumulative regret showing that at least in special cases the new algorithm is nearly optimal.

研究动机与目标

  • 解决标准Bandit算法在理论上可能实现有限 regret 的情况下仍遭受对数 regret 的局限性。
  • 开发一种利用臂奖励之间已知结构依赖关系的学习算法,以实现有界的累积 regret。
  • 提供比对数更紧致的问题依赖 regret 上界,表明在特殊情况下接近最优性。
  • 证明即使在未知最优臂均值或与次优臂最小差距的情况下,有限 regret 也是可实现的。

提出的方法

  • 提出一种新算法 UCB-S,通过引入臂均值依赖于共享参数 θ* 的结构知识,扩展了标准UCB。
  • 使用考虑 μi(θ) 功能结构的置信区间,根据估计的参数空间调整探索策略。
  • 采用风险规避策略,避免在标准UCB失效的模糊区域出现过度乐观。
  • 引入函数 ω(x) 以控制置信区间的增长,确保在结构约束下实现有限 regret。
  • 应用问题依赖性分析,推导出子对数且通常为有限的 regret 上界。
  • 采用一种新颖的 regret 分解方法,根据结构特性分离次优臂选择的贡献。

实验结果

研究问题

  • RQ1在臂奖励功能依赖于共享参数的结构化Bandit问题中,是否可以实现有限的期望累积 regret?
  • RQ2在何种结构条件下,标准UCB算法无法实现有限 regret,以及如何克服这一问题?
  • RQ3是否可能在不知道最优臂均值或与次优臂最小差距的情况下实现有限 regret?
  • RQ4与UCB相比,新算法在 regret 上界和实验结果方面表现如何?
  • RQ5能否建立问题依赖的下界,以证明所提算法的近似最优性?

主要发现

  • 所提出的 UCB-S 算法在标准UCB导致对数 regret 的情形下实现了有限的期望累积 regret,例如当 μ1(θ) = 0 且 μ2(θ) = θ(θ ≥ 0)时。
  • 即使在未知最优臂均值或最小差距的情况下,有限 regret 依然可实现,如图1中的示例(a)和(c)所示。
  • 在广告示例中,当 μ2(θ) = θ 时,若 θ* ≥ 0,则实现有限 regret,而若 θ* < 0,则出现对数 regret。
  • 对于 μ1(θ) = θ·1{θ>0},μ2(θ) = -θ·1{θ<0} 的情形,经过仔细调优的算法在 θ ≤ 0 时实现 O(1) regret,在 θ > 0 时实现 O(1/θ log log(1/θ)) regret。
  • 实验表明,UCB-S 在大多数结构化设置下优于标准UCB,尤其在 θ > 0 时优势随时间增长。
  • UCB-S 在模糊区域的失败归因于无节制的乐观主义,可通过算法的风险规避调整加以缓解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。