[论文解读] Linear Contextual Bandits with Knapsacks
本文提出了一种带有背包约束的线性上下文Bandit框架,其中奖励和资源消耗线性依赖于上下文特征。该方法提出了一种近似最优的后悔界算法,其规模为$\tilde{O}\left(\left(\frac{\text{OPT}}{B}+1\right)m\sqrt{T}\right)$,利用置信椭球和在预算约束下的自适应策略估计。
We consider the linear contextual bandit problem with resource consumption, in addition to reward generation. In each round, the outcome of pulling an arm is a reward as well as a vector of resource consumptions. The expected values of these outcomes depend linearly on the context of that arm. The budget/capacity constraints require that the total consumption doesn't exceed the budget for each resource. The objective is once again to maximize the total reward. This problem turns out to be a common generalization of classic linear contextual bandits (linContextual), bandits with knapsacks (BwK), and the online stochastic packing problem (OSPP). We present algorithms with near-optimal regret bounds for this problem. Our bounds compare favorably to results on the unstructured version of the problem where the relation between the contexts and the outcomes could be arbitrary, but the algorithm only competes against a fixed set of policies accessible through an optimization oracle. We combine techniques from the work on linContextual, BwK, and OSPP in a nontrivial manner while also tackling new difficulties that are not present in any of these special cases.
研究动机与目标
- 解决线性上下文Bandit设置中多资源约束下的在线决策问题。
- 通过将奖励和消耗对上下文向量的线性依赖关系纳入,推广经典线性上下文Bandit和带背包的Bandit。
- 开发一种算法,实现在无需访问NP难优化问题的预言机的情况下达到近似最优的后悔界。
- 在预算约束下确保性能保证,同时在高维臂空间中保持可扩展性。
- 提供与臂的数量$K$无关的后悔界,使其适用于大规模应用场景,如在线广告和推荐系统。
提出的方法
- 使用未知参数$\mu_*$和$W_*$将期望奖励和消耗向量建模为上下文向量的线性函数。
- 围绕估计参数$\hat{\mu}_t$和$\hat{W}_t$维护置信椭球,以量化参数估计中的不确定性。
- 采用一种策略选择规则,通过最大化$\|X_t p_t\|_{M_t^{-1}}$来优先在不确定性最高的方向进行探索。
- 引入对最优策略值$\hat{\text{OPT}}^{2\gamma}$的截断估计,以限制估计误差并确保稳定性。
- 采用两阶段方法:前$T_0$轮为初始探索阶段,随后进入在不确定性降低后的策略优化阶段。
- 通过结合浓度不等式和参数估计误差与策略偏差的柯西-施瓦茨型界,推导出后悔界。
实验结果
研究问题
- RQ1我们能否在无需访问难解优化问题预言机的情况下,在具有多资源约束的线性上下文Bandit中实现近似最优的后悔界?
- RQ2如何利用奖励和消耗的线性结构,以减少后悔对臂的数量$K$的依赖?
- RQ3在随机线性Bandit设置下,预算约束下探索与利用的最佳权衡是什么?
- RQ4置信椭球如何用于引导探索,同时确保累积消耗保持在预算范围内?
- RQ5此类问题的最紧可能的后悔界是什么?其与$T$、$B$和$m$的缩放关系如何?
主要发现
- 当$B > mT^{3/4}$且$T_0 = \sqrt{T}$时,所提算法在高概率下实现$\tilde{O}\left(\left(\frac{\text{OPT}}{B}+1\right)m\sqrt{T}\right)$的后悔界。
- 该后悔界与臂的数量$K$无关,因此适用于大规模应用场景,如在线广告和推荐系统。
- 当$B \geq \gamma$时,以高概率保证估计的最优策略值$\hat{\text{OPT}}^{2\gamma}$在真实$\text{OPT}$的常数倍范围内。
- 通过使用置信椭球并最大化不确定性感知的探索,该方法有效减少了$\mu_*$和$W_*$的估计误差。
- 分析表明,估计策略值与真实策略值之间的累积偏差被限制在$O\left(m\sqrt{T_0 \ln(T_0) \ln(T_0 d / \delta)}\right)$以内,这对后悔控制至关重要。
- 该方法避免了对NP难问题优化预言机的依赖,与先前的非结构化方法不同,从而使其能够在实际场景中实现部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。