Skip to main content
QUICK REVIEW

[论文解读] Improving Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms and Its Applications

Qinshi Wang, Wei Chen|arXiv (Cornell University)|Mar 5, 2017
Advanced Bandit Algorithms Research被引用 35
一句话总结

本文提出了一种新颖的约化框架,将具有概率触发臂的组合多臂赌博机(CMAB-T)转化为经典多臂赌博机(MAB),从而实现更紧致的遗憾界。通过利用概率触发机制和Chernoff不等式,该方法建立了遗憾传递原则,表明MAB中的任意下界均可转化为CMAB-T中的对应下界,且缩放因子为$ p^{-1} $,其中$ p $为触发概率。

ABSTRACT

We study combinatorial multi-armed bandit with probabilistically triggered arms (CMAB-T) and semi-bandit feedback. We resolve a serious issue in the prior CMAB-T studies where the regret bounds contain a possibly exponentially large factor of $1/p^*$, where $p^*$ is the minimum positive probability that an arm is triggered by any action. We address this issue by introducing a triggering probability modulated (TPM) bounded smoothness condition into the general CMAB-T framework, and show that many applications such as influence maximization bandit and combinatorial cascading bandit satisfy this TPM condition. As a result, we completely remove the factor of $1/p^*$ from the regret bounds, achieving significantly better regret bounds for influence maximization and cascading bandits than before. Finally, we provide lower bound results showing that the factor $1/p^*$ is unavoidable for general CMAB-T problems, suggesting that the TPM condition is crucial in removing this factor.

研究动机与目标

  • 建立从具有概率触发臂的组合多臂赌博机(CMAB-T)到经典多臂赌博机(MAB)的正式约化。
  • 将已知的MAB遗憾下界传递到CMAB-T设置中,从而在CMAB-T场景下实现更优的分析。
  • 分析概率触发对遗憾的影响,特别是当每轮仅有一部分臂被激活时的情形。
  • 推导MAB与CMAB-T之间遗憾的定量关系,表明CMAB-T的遗憾至少为$ \frac{1}{2}p^{-1}L(\frac{1}{2}pT_{\text{CMAB}}) $,其中$ L $为MAB的遗憾下界。
  • 证明在某些条件下,选择具有大间隙$ \Delta \geq M $的次优动作的概率被限制在$ O(t^{-2}) $以内,从而实现有界的期望遗憾。

提出的方法

  • 提出一种约化算法(算法LABEL:alg:reduction),在并行运行MAB和CMAB-T实例的同时,使用伯努利指示变量$ \gamma_t $追踪在第$ t $轮中基础臂是否被触发。
  • 利用乘法Chernoff不等式证明,当$ pT_{\text{CMAB}} \geq 6 $时,有效MAB轮数$ T_{\text{MAB}} $以至少$ \frac{1}{2} $的概率不少于$ \frac{1}{2}pT_{\text{CMAB}} $。
  • 定义环境实例上的分布$ \mathcal{D} $,并通过关系式$ \mathbb{E}[\text{Reg}_{\text{CMAB}}] = p^{-1} \mathbb{E}[\text{Reg}_{\text{MAB}}] $在约化下建立MAB与CMAB-T期望遗憾之间的联系。
  • 应用有界平滑性(条件6)和奖励函数的$ \infty $-范数性质,以控制估计奖励与真实奖励之间的差异。
  • 引入“良好”采样与触发事件($ \mathcal{N}^\text{s}_t $,$ \mathcal{N}^\text{t}_t $),以控制估计误差,并推导出遗憾的高概率界。
  • 利用集中不等式和置信区间的对数缩放,以限制次优动作被选择的次数,特别是在$ N_{i,q_i,t-1} \geq \ell_T(\Delta, q_i) $时。

实验结果

研究问题

  • RQ1如何将经典MAB中的遗憾界传递到具有概率触发臂的更复杂CMAB-T设置中?
  • RQ2在已知MAB遗憾下界的情况下,触发概率$ p $与CMAB-T中最终遗憾之间的关系是什么?
  • RQ3在何种条件下,选择具有大间隙$ \Delta \geq M $的次优动作的概率可被控制以确保有界的期望遗憾?
  • RQ4该约化框架能否在考虑CMAB-T中臂的随机触发机制的同时,保持MAB的遗憾结构?
  • RQ5奖励函数的平滑性在控制估计误差并确保收敛到最优动作方面起到什么作用?

主要发现

  • 在$ pT_{\text{CMAB}} \geq 6 $的条件下,MAB轮数$ T_{\text{MAB}} $的期望值至少为$ \frac{1}{2}pT_{\text{CMAB}} $,且该结果以至少$ \frac{1}{2} $的概率成立。
  • 对于任意CMAB-T算法$ A $,其期望遗憾满足$ \mathbb{E}_{D \sim \mathcal{D}}[\text{Reg}_{\text{CMAB},D}^A(T_{\text{CMAB}})] \geq \frac{1}{2}p^{-1}L(\frac{1}{2}pT_{\text{CMAB}}) $,其中$ L $为MAB的遗憾下界。
  • 当所有臂在$ S_t $中均被充分抽取时,选择具有$ \Delta_{S_t} \geq M $的次优动作$ S_t $的概率被限制在$ (2 + j_{\max}(M))mt^{-2} $以内,从而形成可 summable 的尾部。
  • 由$ \Delta_{S_t} \geq M $的动作引起的总遗憾被限制为$ m \cdot (\lceil -\log_2 f^{-1}(M) \rceil_0 + 2) \cdot \frac{\pi^2}{6} \cdot \Delta_{\max} $,该值为有限且与$ T $无关。
  • 该约化确保在相同环境分布下,CMAB-T中的遗憾至少为MAB遗憾的$ p^{-1} $倍,从而建立了下界传递的紧致性。
  • 分析表明,在“良好”采样与触发条件下,选择高间隙次优动作的概率可忽略不计,从而确保收敛到最优动作选择。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。