Skip to main content
QUICK REVIEW

[论文解读] A minimax and asymptotically optimal algorithm for stochastic bandits

Pierre Ménard, Aurélien Garivier|arXiv (Cornell University)|Feb 23, 2017
Advanced Bandit Algorithms Research被引用 72
一句话总结

论文引入 kl-UC B++ 算法用于具有指数族分布的随机臂赌博问题,并证明它在极小极大最优性和渐近最优性两者上均为最优,统一了两种时间最优性概念。

ABSTRACT

We propose the kl-UCB ++ algorithm for regret minimization in stochastic bandit models with exponential families of distributions. We prove that it is simultaneously asymptotically optimal (in the sense of Lai and Robbins' lower bound) and minimax optimal. This is the first algorithm proved to enjoy these two properties at the same time. This work thus merges two different lines of research with simple and clear proofs.

研究动机与目标

  • 激励需要一个同时在极小极大和渐近意义上最优的算法在随机臂赌博问题中。
  • 开发并分析利用指数族分布的 kl-UC B++ 算法。
  • 提供严格的有限时刻与渐近遗憾界限,调和两种时间最优性概念。
  • 提供统一、简单的证明框架,并给出用于带臂遗憾分析的新偏差不等式。

提出的方法

  • 将 kl-UC B++ 定义为探索函数 g(n) = log_plus( (T/(Kn)) (log_plus^2(T/(Kn)) + 1) ).
  • 使用通过 KL 发散约束定义的上置信界 U_a(t): U_a(t) = sup{ μ ∈ I : kl( μ̂_a(t), μ ) ≤ g(N_a(t))/N_a(t) } 。
  • 基于指数族假设,均值区间 [mu-, mu+] 有界且存在统一方差 bound V。
  • 证明极小极大最优性:R_T ≤ 76 sqrt(V K T) + (mu^+ − mu^-) K。
  • 证明渐近最优性:对每个次优臂 a 和适当的 delta,E[N_a(T)] ≤ log(T)/kl(mu_a+delta, mu^*−delta) + lower-order terms。

实验结果

研究问题

  • RQ1单个带臂赌博算法是否能同时在指数族带臂问题上实现极小极大和问题相关(渐近)最优?
  • RQ2应如何调整探索以同时最小化最坏情形遗憾并实现紧凑的问题相关遗憾速率?
  • RQ3基于 KL 的 UCB 策略是否可扩展,提供在有界方差的分布族上的统一遗憾保障?
  • RQ4kl-UC B++ 在 Bernoulli、高斯(及其他)指数族中的精确有限时遗憾界和渐近刻画是什么?

主要发现

  • kl-UC B++ 算法在指数族带臂问题上实现了极小极大最优和渐近最优遗憾。
  • 给出有限时遗憾界:R_T ≤ 76 sqrt(V K T) + (mu^+ − mu^-) K。
  • 对于任意次优臂 a 和适当的 delta,E[N_a(T)] ≤ log(T)/kl(mu_a+delta, mu^*−delta) + O(log log T / delta^2)。
  • 分析覆盖在指数族框架内的伯努利和高斯情形作为特例。
  • 该方法通过调整探索率,将对 MOSS 和 KL-UCB 的已有工作合并,形成统一、简单的证明结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。