Skip to main content
QUICK REVIEW

[论文解读] Simple regret for infinitely many armed bandits

Alexandra Carpentier, Michal Vaľko|arXiv (Cornell University)|May 18, 2015
Advanced Bandit Algorithms Research参考文献 26被引用 31
一句话总结

本文提出 SiRI,一种新颖算法,用于在无限多臂老虎机设置中最小化简单后悔,其中学习者在 n 轮后仅选择一个最优臂。通过基于储液分布的 β-规则性参数自适应采样,SiRI 在不同 β 范畴内实现了近乎最小最大最优的简单后悔率——最多对数因子——在最优臂识别任务中优于累积后悔优化算法。

ABSTRACT

We consider a stochastic bandit problem with infinitely many arms. In this setting, the learner has no chance of trying all the arms even once and has to dedicate its limited number of samples only to a certain number of arms. All previous algorithms for this setting were designed for minimizing the cumulative regret of the learner. In this paper, we propose an algorithm aiming at minimizing the simple regret. As in the cumulative regret setting of infinitely many armed bandits, the rate of the simple regret will depend on a parameter $β$ characterizing the distribution of the near-optimal arms. We prove that depending on $β$, our algorithm is minimax optimal either up to a multiplicative constant or up to a $\log(n)$ factor. We also provide extensions to several important cases: when $β$ is unknown, in a natural setting where the near-optimal arms have a small variance, and in the case of unknown time horizon.

研究动机与目标

  • 解决在仅能获得 n 个样本的情况下,从无限多臂中选择单一最优臂的挑战。
  • 将关注点从累积后悔转向简单后悔,后者衡量所选臂与真实最优臂之间的差距。
  • 设计一种能自适应未知臂储液分布 β-规则性参数的算法。
  • 提供理论上保证的简单后悔,其最优性在对数因子内达到最小最大。
  • 将算法扩展至未知时间范围和未知 β,确保实际适用性。

提出的方法

  • SiRI 使用两阶段采样策略:首先从初始样本中估计 β,然后根据估计的 β 分配剩余样本至各臂。
  • 采用基于置信区间约束的臂选择机制,优先选择基于其经验均值和方差具有高潜力的臂。
  • 算法利用 β-规则性假设来建模近似最优臂的分布,其中 P(μ* − μ ≥ ε) ≈ ε^β。
  • 应用一种针对简单后悔最小化定制的修改版 UCB 式探索策略,其置信区间按 β 相关项缩放。
  • 使用倍增技巧和 UCB-AIR 启发的技术,使 SiRI 具备即时性,可自适应未知时间范围。
  • 算法使用部分样本估计 β,并提供估计精度的理论保证。

实验结果

研究问题

  • RQ1在仅能在 n 轮后选择单一臂的无限多臂老虎机设置中,能否最优地最小化简单后悔?
  • RQ2简单后悔的最小最大率如何依赖于臂储液分布的 β-规则性参数?
  • RQ3能否设计一种算法,在无需预先知晓 β 的情况下实现简单后悔的最小最大最优性?
  • RQ4能否使算法对未知时间范围具有鲁棒性,同时保持近似最优的简单后悔?
  • RQ5SiRI 与为累积后悔优化的算法(如 UCB-F)和为最优臂识别设计的算法(如 lil’UCB)相比表现如何?

主要发现

  • SiRI 以高概率实现简单后悔率 O(polylog(n) × max(n^{-1/2}, n^{-1/β} polylog n)),该结果在对数因子内达到最小最大最优。
  • 当 β < 2 时,简单后悔率由 n^{-1/2} 主导;当 β > 2 时,由 n^{-1/β} 主导,反映出 β 对问题复杂度的影响。
  • 当 β 未知时,使用估计 β 的 SiRI(记为 β̄-SiRI)仍能实现与最优率相差一个 polylog(n) 因子的简单后悔率。
  • 数值实验表明,当使用最优臂数时,SiRI 的表现与 lil’UCB 相当,验证了其在最优臂识别中的有效性。
  • UCB-F 为累积后悔设计,对较大的 β 值表现较差,证实了累积后悔最小化在简单后悔场景下并非最优。
  • 即使 β 从数据中估计,算法仍保持有效,当使用 √n 个样本估计 β 时性能下降极小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。