[论文解读] An efficient algorithm for contextual bandits with knapsacks, and an extension to concave objectives
本文提出了一种计算高效的上下文多臂赌博机带背包问题(CBwK)算法,扩展了Agarwal等人(2014)的方法以处理全局资源约束。该算法实现了最优遗憾界,运行时间与策略空间大小的对数平方根成比例,解决了Badanidiyuru等人(2014)提出的一个开放问题。该方法还可推广至资源消耗向量上的任意凹目标函数。
We consider a contextual version of multi-armed bandit problem with global knapsack constraints. In each round, the outcome of pulling an arm is a scalar reward and a resource consumption vector, both dependent on the context, and the global knapsack constraints require the total consumption for each resource to be below some pre-fixed budget. The learning agent competes with an arbitrary set of context-dependent policies. This problem was introduced by Badanidiyuru et al. (2014), who gave a computationally inefficient algorithm with near-optimal regret bounds for it. We give a computationally efficient algorithm for this problem with slightly better regret bounds, by generalizing the approach of Agarwal et al. (2014) for the non-constrained version of the problem. The computational time of our algorithm scales logarithmically in the size of the policy space. This answers the main open question of Badanidiyuru et al. (2014). We also extend our results to a variant where there are no knapsack constraints but the objective is an arbitrary Lipschitz concave function of the sum of outcome vectors.
研究动机与目标
- 解决先前针对上下文多臂赌博机带背包问题(CBwK)的算法在计算上的低效问题,这些算法虽理论上最优,但因Oracle调用复杂度过高而不切实际。
- 解决Badanidiyyuru等人(2014)提出的开放问题:在保持近似最优遗憾的同时实现计算效率。
- 将框架推广至处理资源消耗向量总和的任意凹目标函数,超越线性目标的限制。
- 通过依赖最大值查询器(arg-max oracle)而非显式枚举所有策略,确保在策略空间较大时算法仍保持高效。
- 在对平滑性和有界性做出合理假设的前提下,提供与策略数量和时间跨度成有利比例的理论遗憾界。
提出的方法
- 将Agarwal等人(2014)提出的平滑投影与置信区间更新机制适配至具有d维资源消耗的约束型CBwK设置。
- 采用一系列具有递增置信区间的周期,在每个周期内通过策略上的平滑分布选择动作,以平衡探索与利用。
- 将每个周期的策略分布表示为上下文相关策略与均匀基线的凸组合,通过最大值查询器实现高效计算。
- 应用Azuma-Hoeffding不等式,对时间步长上经验与期望的资源消耗和奖励向量之间的偏差进行上界估计。
- 利用凹目标函数的Lipschitz连续性与平滑性,将目标值的遗憾与平均资源消耗和奖励向量的偏差关联起来。
- 通过结合集中不等式与基于周期的算法结构,推导出遗憾界,实现对策略空间大小的对数依赖。
实验结果
研究问题
- RQ1能否设计一种计算高效的CBwK算法,同时保持近似最优的遗憾界?
- RQ2当策略空间较大时,如何在不显式枚举所有策略的前提下改进遗憾的缩放性能?
- RQ3该框架能否推广至处理总资源消耗的任意凹函数,而不仅限于线性目标?
- RQ4资源约束对具有任意策略集的上下文多臂赌博机设置中收敛速度与遗憾的影响是什么?
- RQ5使用最大值查询器而非完整策略枚举,对计算效率与理论保证有何影响?
主要发现
- 所提算法的平均遗憾界为 $ O\big(\big\| \mathbf{1}_d \big\| L \left(\sqrt{\frac{K}{T}\ln\frac{T|\Pi|}{\delta}} + \sqrt{\frac{1}{T}\ln\frac{d}{\delta}}\right)\big) $,在对数因子范围内达到最优。
- 计算成本与 $ \sqrt{\log |\Pi|} $ 成比例,其中 $ |\Pi| $ 为策略空间大小,因此即使在大规模策略集合下也保持高效。
- 该算法在保持计算可处理性的同时维持了近似最优的遗憾,解决了Badanidiyuru等人(2014)提出的开放问题。
- 遗憾界在假设 $ T \geq K\ln(T|\Pi|/\delta) $ 下成立,确保主导项具有实际意义。
- 通过利用目标函数的平滑性与凹性,成功将凹目标的扩展转化为对期望性能偏差的控制。
- 分析表明,经验结果与期望结果之间的偏差通过集中不等式得到紧密控制,从而支持强高概率遗憾保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。