[论文解读] Budget-Constrained Multi-Armed Bandits with Multiple Plays
本文提出了UCB-MB和Exp3.M.B算法,用于处理具有多重选择的预算约束多臂赌博机问题,即每轮在总预算B下选择K个臂。在随机情形下建立了O(NK⁴ log B)的遗憾,而在对抗情形下建立了O(√(NB log(N/K)))的遗憾,且具有高概率界,并给出了匹配的Ω((1−K/N)²√(NB/K))下界,将先前工作扩展至同时包含预算约束和多重选择的情形。
We study the multi-armed bandit problem with multiple plays and a budget constraint for both the stochastic and the adversarial setting. At each round, exactly $K$ out of $N$ possible arms have to be played (with $1\leq K \leq N$). In addition to observing the individual rewards for each arm played, the player also learns a vector of costs which has to be covered with an a-priori defined budget $B$. The game ends when the sum of current costs associated with the played arms exceeds the remaining budget. Firstly, we analyze this setting for the stochastic case, for which we assume each arm to have an underlying cost and reward distribution with support $[c_{\min}, 1]$ and $[0, 1]$, respectively. We derive an Upper Confidence Bound (UCB) algorithm which achieves $O(NK^4 \log B)$ regret. Secondly, for the adversarial case in which the entire sequence of rewards and costs is fixed in advance, we derive an upper bound on the regret of order $O(\sqrt{NB\log(N/K)})$ utilizing an extension of the well-known $ exttt{Exp3}$ algorithm. We also provide upper bounds that hold with high probability and a lower bound of order $Ω((1 - K/N)^2 \sqrt{NB/K})$.
研究动机与目标
- 为多臂赌博机文献中的空白提供解决方案,同时引入预算约束和每轮多重选择。
- 建模现实场景中动作具有成本且需同时做出多个决策的情形,例如在线广告或网络信道选择。
- 在这些约束下,为随机和对抗性设置推导遗憾界。
- 为对抗性预算约束多重选择多臂赌博机问题提供首个高概率遗憾上界和匹配的下界。
提出的方法
- 提出UCB-MB算法,一种基于上置信界(Upper Confidence Bound)的随机设置算法,利用置信区间在预算约束下平衡探索与利用。
- 通过Exp3.P.M.B将Exp3算法适配至多重选择、预算约束的设置,引入权重更新机制和探索参数,以应对对抗性奖励和成本。
- 提出一种改进的损失估计方案,结合估计的奖励和成本,以在时变、对抗性序列下维持遗憾界。
- 采用高概率分析框架,推导累积遗憾的集中不等式,确保对最坏情况序列的鲁棒性。
- 使用一种同时考虑奖励和成本的权重更新规则,引入参数γ控制探索,参数α用于置信度缩放。
- 通过展开对数权重比并应用集中不等式,推导遗憾界,从而在随机和对抗性情形下均获得紧致的界限。
实验结果
研究问题
- RQ1在具有多重选择和固定预算约束的随机多臂赌博机设置中,可实现的最优遗憾是多少?
- RQ2当每轮选择多个臂且总预算限制了轮次数量时,对抗性设置下的遗憾如何随规模变化?
- RQ3能否为预算约束下的多臂赌博机问题建立高概率遗憾上界?
- RQ4该问题的根本遗憾下界是什么?其随N、K和B的变化规律如何?
- RQ5所提出的UCB-MB和Exp3.M.B算法与先前工作相比,在遗憾缩放和现实世界中带成本的序列决策应用方面有何优势?
主要发现
- 所提出的UCB-MB算法在具有多重选择和预算约束的随机设置下,实现了O(NK⁴ log B)的期望遗憾。
- 在对抗性设置下,Exp3.M.B算法以高概率实现了O(√(NB log(N/K)))的遗憾上界。
- 建立了匹配的下界Ω((1−K/N)²√(NB/K)),表明在对抗性情形下上界具有紧致性。
- Exp3.M.B的高概率遗憾上界通过在权重更新过程和估计累积收益上使用新颖的集中分析推导得出。
- 分析结果表明,遗憾随B和N亚线性增长,且对K的依赖为多项式,表明在更大动作集下具有可扩展性。
- 结果通过同时引入预算约束和多重选择,扩展了先前研究,而这两者此前均被单独研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。