QUICK REVIEW

[论文解读] BISTRO: An Efficient Relaxation-Based Method for Contextual Bandits

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Feb 6, 2016

Advanced Bandit Algorithms Research参考文献 14被引用 54

一句话总结

BISTRO 是一种计算高效的基于松弛的上下文Bandits算法，即使在奖励序列对抗性演化的情况下，也能仅通过每轮d次对经验风险最小化（ERM）预言机的调用实现低遗憾。它利用独立同分布的未标记上下文来简化计算，并保持与策略类大小无关的遗憾界。当全信息学习高效时，其理论保证可扩展至对抗性设置。

ABSTRACT

We present efficient algorithms for the problem of contextual bandits with i.i.d. covariates, an arbitrary sequence of rewards, and an arbitrary class of policies. Our algorithm BISTRO requires d calls to the empirical risk minimization (ERM) oracle per round, where d is the number of actions. The method uses unlabeled data to make the problem computationally simple. When the ERM problem itself is computationally hard, we extend the approach by employing multiplicative approximation algorithms for the ERM. The integrality gap of the relaxation only enters in the regret bound rather than the benchmark. Finally, we show that the adversarial version of the contextual bandit problem is learnable (and efficient) whenever the full-information supervised online learning problem has a non-trivial regret guarantee (and efficient).

研究动机与目标

开发一种适用于任意策略类的计算高效遗憾最小化方法，用于上下文Bandits问题。
通过利用未标记的i.i.d.数据来简化学习问题，从而降低上下文Bandits中的计算开销。
建立仅依赖于ERM预言机复杂度而非策略类大小的遗憾界。
将高效在线学习的适用性扩展至混合i.i.d.-对抗性奖励设置。
证明当对应全信息问题具有非平凡遗憾保证时，对抗性上下文Bandits问题可被高效学习。

提出的方法

BISTRO采用基于松弛的方法，利用独立同分布的未标记上下文，将上下文Bandits问题转化为可处理的优化问题。
它使用部分信息松弛框架，通过一系列条件期望和代价向量上的上确界来上界遗憾。
该算法每轮仅进行d次ERM预言机调用，其中d为动作数，与策略类大小无关。
它引入一个松弛项Rel(I₁:t)，用于捕捉信息差距，并通过迭代更新进行最小化。
对于计算困难的ERM问题，BISTRO使用乘法近似算法，其中整数规划间隙仅影响遗憾界，而不影响基准。
该方法对任意奖励序列（包括对抗性或非随机过程）具有鲁棒性，同时假设上下文为i.i.d.。

实验结果

研究问题

RQ1我们能否设计一种上下文Bandits算法，使得每轮仅需d次ERM预言机调用，且与策略类大小无关？
RQ2如何利用未标记的i.i.d.数据来简化上下文Bandits学习的计算复杂度？
RQ3基于松弛的方法能否在混合i.i.d.-对抗性奖励设置下实现低遗憾？
RQ4全信息在线学习的计算效率与相应上下文Bandits问题的效率之间存在何种关系？
RQ5能否将松弛的整数规划间隙隔离在遗憾界中，而不影响基准？

主要发现

BISTRO实现的遗憾界仅依赖于ERM预言机复杂度和松弛的整数规划间隙，而不依赖于策略类的大小。
该算法每轮仅需d次ERM预言机调用，使其在策略类规模较大时仍具有高度可扩展性。
当全信息问题具有非平凡遗憾保证时，即使奖励序列对抗性演化，该遗憾界依然成立。
BISTRO的时间复杂度与对应全信息在线学习过程的时间复杂度一致，确保了计算效率。
该方法在归纳设置下依然有效，即所有上下文均可提前获得。
分析表明，将分布q′ₜ与qₜ解耦会导致遗憾界出现松散，提示存在更紧致分析的可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。