Skip to main content
QUICK REVIEW

[论文解读] Sparsity, variance and curvature in multi-armed bandits

Sébastien Bubeck, Michael B. Cohen|arXiv (Cornell University)|Nov 3, 2017
Advanced Bandit Algorithms Research参考文献 10被引用 56
一句话总结

论文解决了对抗性赌博中在稀疏性、低变异性与行动集合曲率下的遗憾未解问题,给出近最优界:对于 p ∈ [1,2] 的 ell_p 球,遗憾上界分别为 O~(sqrt{sT}), O~(sqrt{Q}), 和 O~(sqrt{nT}),并且对于 p>2 以及“饥饿”变体给出匹配的下界。

ABSTRACT

In (online) learning theory the concepts of sparsity, variance and curvature are well-understood and are routinely used to obtain refined regret and generalization bounds. In this paper we further our understanding of these concepts in the more challenging limited feedback scenario. We consider the adversarial multi-armed bandit and linear bandit settings and solve several open problems pertaining to the existence of algorithms with favorable regret bounds under the following assumptions: (i) sparsity of the individual losses, (ii) small variation of the loss sequence, and (iii) curvature of the action set. Specifically we show that (i) for $s$-sparse losses one can obtain $ ilde{O}(\sqrt{s T})$-regret (solving an open problem by Kwon and Perchet), (ii) for loss sequences with variation bounded by $Q$ one can obtain $ ilde{O}(\sqrt{Q})$-regret (solving an open problem by Kale and Hazan), and (iii) for linear bandit on an $\ell_p^n$ ball one can obtain $ ilde{O}(\sqrt{n T})$-regret for $p \in [1,2]$ and one has $ ildeΩ(n \sqrt{T})$-regret for $p>2$ (solving an open problem by Bubeck, Cesa-Bianchi and Kakade). A key new insight to obtain these results is to use regularizers satisfying more refined conditions than general self-concordance

研究动机与目标

  • 通过利用有限反馈赌博场景中的稀疏性、方差与曲率,推动更精细的遗憾上界。
  • 扩展对抗性与线性赌博理论,以在结构化的损失序列和动作集下获得更紧的界。
  • 开发超越自对照性的正则化技术,以在可达方向上实现良好条件数。
  • 引入并分析饥饿赌博(starved bandit)模型,以研究信息匮乏反馈场景。

提出的方法

  • 采用 Follow The Regularized Leader (FTRL) 方法,配合混合正则化项 Phi(x) = ∑_i x(i) log x(i) - γ ∑_i log x(i) 以及学习率 η。
  • 引入软探索机制,在不进行大规模均匀探索的情况下控制损失估计器的方差。
  • 通过一个专门引理(超越标准自对照性)分析正则化项的条件性,以界定局部范数 ||ℓ_t||_{x_t,*}。
  • 应用水库采样(Hazan-Kale 思路)以在稀疏和变异设置中实现变异相关的界。
  • 推导三个情形的遗憾上界:稀疏损失、损失变异受限为 Q,以及在单位 ell_p^n 球上的线性赌博(p ∈ [1,2])。
  • 给出 p>2 与饥饿赌博的下界,以确立结果的紧性。

实验结果

研究问题

  • RQ1损失向量中的稀疏性是否能够带来与稀疏性等级 s 相匹配的遗憾界(即 R_T = ~O(√(sT)))在对抗性赌博中?
  • RQ2损失序列的有界变化(方差 Q)是否会在多臂赌博中产生近似 O~(√Q) 的遗憾?
  • RQ3在单位 ell_p^n 球上的线性赌博中,特别是 p∈[1,2] 与 p>2 的极小极大遗憾率是多少?
  • RQ4信息匮乏(starved)反馈模型如何影响可达到的遗憾?在 p 的哪些区间可以实现 √T 式遗憾?

主要发现

  • 存在一种赌博策略,在损失序列满足 ∑_t ||ℓ_t||_2^2 ≤ L 时,遗憾 R_T ≤ 10 √(L log n) + 20 n log T。
  • 存在一种策略,在总变异量 ≤ Q 的损失序列下,遗憾 R_T ≤ C √(Q log n) + C n log^2(T)。
  • 对于 p ∈ (1,2],在单位 ell_p^n 球上的线性赌博算法的遗憾上界为 R_T ≤ 2^{6/(p-1)} √(nT log T)。
  • 对于 p>2,任何在单位 ell_p^n 球上的线性赌博算法,在期望意义上有下界 R_T ≥ C n √T(对于足够大的 T)。“
  • 对于饥饿型多臂赌博和在 p>2 的 ell_p^n 球上的饥饿线性赌博,不存在 √T 型遗憾;而在 p∈(1,2] 的饥饿情形中,可以实现 √T 的遗憾。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。