Skip to main content
QUICK REVIEW

[论文解读] Contextual Bandit Learning with Predictable Rewards

Alekh Agarwal, Miroslav Dudı́k|arXiv (Cornell University)|Feb 7, 2012
Advanced Bandit Algorithms Research参考文献 10被引用 46
一句话总结

该论文提出了一种新颖的上下文Bandit算法——回归器消除法(Regressor Elimination),该算法利用可实现性假设(即在已知函数类中存在一个完美预测器),在特定设置下实现恒定遗憾。与以往方法不同,该算法采用紧致的、依赖于时间 $ t $ 的阈值,激进地剔除表现较差的回归器,证明了在有利的奖励分布下,可实现性可显著加快学习速度,即使在标准界限随动作数 $ K $ 恶化的情况下也是如此。

ABSTRACT

Contextual bandit learning is a reinforcement learning problem where the learner repeatedly receives a set of features (context), takes an action and receives a reward based on the action and context. We consider this problem under a realizability assumption: there exists a function in a (known) function class, always capable of predicting the expected reward, given the action and context. Under this assumption, we show three things. We present a new algorithm---Regressor Elimination--- with a regret similar to the agnostic setting (i.e. in the absence of realizability assumption). We prove a new lower bound showing no algorithm can achieve superior performance in the worst case even with the realizability assumption. However, we do show that for any set of policies (mapping contexts to actions), there is a distribution over rewards (given context) such that our new algorithm has constant regret unlike the previous approaches.

研究动机与目标

  • 研究可实现性假设(即在已知函数类中存在一个完美预测器)是否能加快上下文Bandit问题中的学习速度。
  • 开发一种新算法,利用可实现性以获得优于对抗性方法的遗憾保证。
  • 分析可实现性导致与动作数 $ K $ 无关的恒定遗憾的条件。
  • 建立一个理论下界,表明仅靠可实现性并不能消除最坏情况下的 $ frac{1}{ sqrt{K}} $ 依赖关系。
  • 证明对于任意策略类,均存在一种奖励分布,使得回归器消除法实现对数遗憾,而此前的方法无法做到。

提出的方法

  • 回归器消除法维护一个候选回归器集合,并使用其上的分布来平衡探索与利用。
  • 在每一轮中,它通过混合策略选择动作:以高概率,从回归器中采样并根据其策略贪婪地行动;以小概率 $ frac{1}{2K} $,在当前回归器集合中均匀探索所有动作。
  • 它施加了一个可行性约束(方程 3.1),确保每个策略的动作被以足够高的概率选择,从而实现从回归器误差到策略性能的遗憾传递。
  • 当某个回归器的经验误差超过最优回归器超过 $ frac{18\text{ln}(1/\tdelta_t)}{t} $ 阈值时,即被剔除,其中 $ \tdelta_t = \tfrac{\tdelta}{2Nt^3\text{log}_2(t)} $。
  • 在可实现性假设下,该剔除规则被收紧,确保最优回归器永远不会被剔除,这是关键的技术贡献。
  • 该算法的分析依赖于一个新颖的遗憾传递引理,将回归器误差与策略遗憾联系起来,从而实现比以往对抗性方法更紧的界。

实验结果

研究问题

  • RQ1可实现性假设(即在已知函数类中存在一个完美预测器)是否能比对抗性设置下加快上下文Bandit问题中的学习速度?
  • RQ2是否存在一种情形,使得可实现性能够实现与动作数 $ K $ 无关的恒定遗憾?
  • RQ3在可实现性假设下,是否可以安全地应用更激进的剔除策略,而不会剔除最优回归器?
  • RQ4在可实现性假设下,性能的根本极限是什么?最坏情况下是否仍需 $ \tsqrt{K} $ 的缩放?
  • RQ5对于任意策略类,是否存在一种奖励分布,使得回归器消除法实现对数遗憾,而此前的算法无法做到?

主要发现

  • 回归器消除法实现了 $ \tcal{O}(\tsqrt{KT\text{ln}(NT/\tdelta)}) $ 的遗憾界,与一般对抗性设置下的结果一致,但由于可实现性假设,常数项得到显著改善。
  • 论文证明了一个新的下界,表明即使在可实现性假设下,任何算法的最坏情况遗憾也难以优于 $ \tOmega(\tsqrt{KT}) $,从而证明 $ \tsqrt{K} $ 的依赖关系在一般情况下是不可避免的。
  • 对于任意策略类 $ \tPi $,均存在一种奖励分布,使得回归器消除法实现 $ \tcal{O}(\ttext{ln}(N/\tdelta)) $ 的遗憾,与 $ T $ 和 $ K $ 无关,而此前的方法无法实现。
  • 该算法的剔除规则基于依赖于时间 $ t $ 的误差阈值,确保在可实现性假设下最优回归器永远不会被剔除,这是关键的技术洞见。
  • 可行性探索分布约束(方程 3.1)通过精细化分析得到证明,优于 Dudik 等人(2011)的先前工作。
  • 遗憾传递引理建立了回归器误差与策略遗憾之间的直接联系,通过利用可实现性假设,实现了更紧的界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。