Skip to main content
QUICK REVIEW

[论文解读] A Smoothed Analysis of the Greedy Algorithm for the Linear Contextual Bandit Problem

Sampath Kannan, Jamie Morgenstern|arXiv (Cornell University)|Jan 10, 2018
Advanced Bandit Algorithms Research被引用 29
一句话总结

本文对线性上下文Bandit中的贪心算法进行了平滑分析,表明即使在缺乏显式探索的情况下,对抗性上下文的小随机扰动也能使贪心方法实现无遗憾性能。关键结果是,在典型(扰动后)环境中,贪心学习能够避免灾难性学习失败,并有效平衡利用与长期学习。

ABSTRACT

Bandit learning is characterized by the tension between long-term exploration and short-term exploitation. However, as has recently been noted, in settings in which the choices of the learning algorithm correspond to important decisions about individual people (such as criminal recidivism prediction, lending, and sequential drug trials), exploration corresponds to explicitly sacrificing the well-being of one individual for the potential future benefit of others. This raises a fairness concern. In such settings, one might like to run a "greedy" algorithm, which always makes the (myopically) optimal decision for the individuals at hand - but doing this can result in a catastrophic failure to learn. In this paper, we consider the linear contextual bandit problem and revisit the performance of the greedy algorithm. We give a smoothed analysis, showing that even when contexts may be chosen by an adversary, small perturbations of the adversary's choices suffice for the algorithm to achieve "no regret", perhaps (depending on the specifics of the setting) with a constant amount of initial training data. This suggests that "generically" (i.e. in slightly perturbed environments), exploration and exploitation need not be in conflict in the linear setting.

研究动机与目标

  • 研究在上下文被对抗性选择时,由于公平性顾虑而常被采用的贪心算法是否能在线性上下文Bandit中实现无遗憾性能。
  • 分析对抗性上下文的小随机扰动是否足以防止贪心学习因缺乏探索而发生灾难性失败。
  • 证明在典型(轻微扰动)环境中,贪心算法可在无需显式探索的情况下有效学习,从而解决公平性与长期学习之间的张力。
  • 在平滑分析下建立贪心学习的遗憾理论边界,表明仅需较小的预热阶段即可实现良好性能。

提出的方法

  • 本文引入一种平滑分析模型,其中对抗性上下文受到小的零均值高斯扰动。
  • 分析基于最小二乘法对线性奖励函数的估计,选择预测奖励最高的动作的贪心算法。
  • 利用集中不等式来限制初始预热阶段的估计误差,表明初始估计可能因数据有限而存在偏差。
  • 通过估计器偏差的概率论论证,推导出贪心算法因估计误差而选择次优臂的轮数边界。
  • 将这些边界与递推论证相结合,表明以常数概率,算法在足够轮次后将纠正其选择并最终选择最优臂。
  • 关键技术组件是概率性论证,表明以高概率,算法最终会足够频繁地选择最优臂,从而减少估计误差并实现无遗憾。

实验结果

研究问题

  • RQ1当上下文被对抗性选择时,贪心算法是否能在线性上下文Bandit中实现无遗憾性能?
  • RQ2对抗性上下文的小量随机扰动能否足以使贪心算法避免灾难性学习失败?
  • RQ3在平滑分析下,预热阶段大小与贪心算法遗憾之间的定量权衡是什么?
  • RQ4贪心算法的性能如何依赖于上下文向量扰动的大小?
  • RQ5在何种条件下,贪心算法将最终纠正其初始偏差并收敛到最优决策?

主要发现

  • 在大小为 $\sigma$ 的小扰动对抗性上下文中,贪心算法的遗憾为 $\Omega\left(\epsilon\left(e^{\frac{1}{18\sigma^{2}}}-n^{2/3}\right)\right)$,其中 $\epsilon = \min_i |\beta_i|$。
  • 当预热阶段大小 $n \leq \frac{1}{2\epsilon}$ 时,贪心算法仍可能因初始估计偏差而遭受显著遗憾,但该遗憾有界,且当 $\sigma$ 足够小时,其随 $T$ 的增长为次线性。
  • 在平滑环境中,算法实现了无遗憾性能,因为持续选择次优臂的概率随 $\sigma^{-2}$ 指数衰减。
  • 分析表明,以常数概率,算法最终会足够频繁地选择最优臂,从而减少估计误差并纠正初始偏差。
  • 关键洞见是,小扰动打破了导致贪心学习失败的最坏情况对抗配置,从而实现向最优决策的收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。