Skip to main content
QUICK REVIEW

[论文解读] Bandits with concave rewards and convex knapsacks

Shipra Agrawal, Nikhil R. Devanur|arXiv (Cornell University)|Feb 24, 2014
Advanced Bandit Algorithms Research参考文献 17被引用 24
一句话总结

本文提出了带凸背包和凹奖励的Bandits(BwCR),这是多臂老虎机的推广,支持任意凹奖励和随时间变化的凸资源约束。研究表明,UCB算法的一种自然扩展可实现近乎最优的遗憾界,与Bandits with Knapsacks(BwK)的先前最先进结果相当,同时通过与Frank-Wolfe和Blackwell可及性理论的联系,提供了计算高效的算法。

ABSTRACT

In this paper, we consider a very general model for exploration-exploitation tradeoff which allows arbitrary concave rewards and convex constraints on the decisions across time, in addition to the customary limitation on the time horizon. This model subsumes the classic multi-armed bandit (MAB) model, and the Bandits with Knapsacks (BwK) model of Badanidiyuru et al.[2013]. We also consider an extension of this model to allow linear contexts, similar to the linear contextual extension of the MAB model. We demonstrate that a natural and simple extension of the UCB family of algorithms for MAB provides a polynomial time algorithm that has near-optimal regret guarantees for this substantially more general model, and matches the bounds provided by Badanidiyuru et al.[2013] for the special case of BwK, which is quite surprising. We also provide computationally more efficient algorithms by establishing interesting connections between this problem and other well studied problems/algorithms such as the Blackwell approachability problem, online convex optimization, and the Frank-Wolfe technique for convex optimization. We give examples of several concrete applications, where this more general model of bandits allows for richer and/or more efficient formulations of the problem.

研究动机与目标

  • 将经典的多臂老虎机和带背包的Bandits(BwK)模型推广,以支持任意凹奖励和资源消耗的凸约束。
  • 证明UCB算法家族的一种简单扩展在该通用设置下可实现近乎最优的遗憾,甚至与BwK的先前最优边界一致。
  • 通过将BwCR与在线凸优化、Frank-Wolfe和Blackwell可及性等经典问题关联,设计计算高效的算法。
  • 表明所提出的框架可在广告、众包和网络路由等应用中实现更丰富且高效的建模。

提出的方法

  • 提出一种老虎机模型,其中决策产生向量结果,目标是确保平均向量位于一个凸集中,同时最大化一个凹目标函数。
  • 通过在奖励和约束向量上引入置信区间,并采用对偶优化框架,扩展UCB算法。
  • 利用在线凸优化和凸分析的技术推导遗憾界,证明其问题依赖的最优性。
  • 基于Frank-Wolfe方法设计一种原始算法,以高效求解内部优化问题。
  • 通过将问题约化为Blackwell可及性问题,设计一种对偶算法,再通过在线凸优化求解。
  • 结合原始与对偶方法,提出一种计算高效的算法,可在每一步求解带附加线性约束的单纯形上的线性规划。

实验结果

研究问题

  • RQ1UCB算法的一种简单扩展是否可在具有凹奖励和凸约束的一般老虎机模型中实现近乎最优的遗憾?
  • RQ2扩展后的UCB算法的遗憾性能与Bandits with Knapsacks(BwK)的先前最先进算法相比如何?
  • RQ3BwCR与在线凸优化和Frank-Wolfe方法等知名问题之间存在何种联系?
  • RQ4能否为BwCR设计出避免在每一步求解复杂凸规划的高效多项式时间算法?
  • RQ5在哪些应用场景中,BwCR框架相比现有模型能实现更丰富或更高效的建模?

主要发现

  • 扩展的UCB算法实现的遗憾界与Badanidiyuru等人针对BwK问题建立的问题依赖下界和上界一致,尽管BwCR模型具有普遍性。
  • 基于Frank-Wolfe的原始算法通过在每一步求解线性优化子问题,实现了高效计算,避免了昂贵的凸优化。
  • 基于Blackwell可及性的对偶算法在BwK的特殊情况下与Badanidiyuru等人提出的PD-BwK算法等价,验证了其正确性。
  • 高效算法(算法6)在每一步仅需在带一个附加线性约束的单纯形上求解线性规划,相比求解原始凸规划显著更高效。
  • 在允许不选择任何臂的场景中,该算法退化为贪婪的分数背包规则,使其在如按点击付费广告等应用中更具实用性。
  • 该框架涵盖了经典MAB和BwK,且在传感器网络、众包和网络路由等领域实现了更丰富的建模能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。