Skip to main content
QUICK REVIEW

[论文解读] Nonparametric Bandits with Covariates

Philippe Rigollet, Assaf Zeevi|arXiv (Cornell University)|Mar 8, 2010
Advanced Bandit Algorithms Research参考文献 14被引用 75
一句话总结

本文提出了一种带有协变量的非参数多臂赌博机框架,其中奖励依赖于可观测的协变量,并提出了一种策略,其遗憾性能在对数因子内接近极小化极大下界。通过将全局问题局部化为与上下文相关的多臂赌博机子问题,并利用在光滑性假设下的非参数回归估计,该方法建立了依赖于响应函数光滑性和协变量维度的最优遗憾率。

ABSTRACT

We consider a bandit problem which involves sequential sampling from two populations (arms). Each arm produces a noisy reward realization which depends on an observable random covariate. The goal is to maximize cumulative expected reward. We derive general lower bounds on the performance of any admissible policy, and develop an algorithm whose performance achieves the order of said lower bound up to logarithmic terms. This is done by decomposing the global problem into suitably "localized" bandit problems. Proofs blend ideas from nonparametric statistics and traditional methods used in the bandit literature.

研究动机与目标

  • 为解决传统赌博机模型假设奖励独立同分布的局限性,引入影响奖励分布的可观测协变量。
  • 在具有协变量的非参数设置下,开发一种遗憾性能接近理论极小化极大下界的策略。
  • 以响应函数的光滑性和协变量维度来表征非参数赌博机问题的复杂性。
  • 通过建立极小化极大下界并构造一种几乎达到该下界的策略,弥合非参数统计与赌博机理论之间的鸿沟。

提出的方法

  • 该方法根据协变量取值将全局赌博机问题分解为局部赌博机子问题,将每个上下文视为独立的子问题。
  • 采用非参数回归估计器对每种动作的均值奖励函数进行建模,假设其具有β阶Hölder光滑性。
  • 设计了一种基于置信区间的方法,受UCB启发,但针对带有协变量的非参数设置进行了调整,在局部邻域内平衡探索与利用。
  • 分析中使用了信息论工具,包括Kullback-Leibler散度和测度变换论证,推导出遗憾的极小化极大下界。
  • 通过在精心构造的、以二进制序列索引的函数族上采用两点检验法推导下界,利用了函数类的光滑性与分离性质。
  • 最终策略的遗憾率在对数因子内接近所推导的下界,其速率依赖于光滑性β和协变量维度d。

实验结果

研究问题

  • RQ1在奖励函数具有光滑性假设的前提下,带有协变量的非参数赌博机的根本极限(极小化极大遗憾)是什么?
  • RQ2与经典独立同分布赌博机设置相比,协变量的引入如何影响最优遗憾率?
  • RQ3能否构造一种策略,使其在该非参数设置下实现接近极小化极大下界的遗憾性能?
  • RQ4响应函数的光滑性与协变量维度在决定问题复杂性方面起到何种作用?
  • RQ5如何有效实现赌博机问题的局部化,以在协变量存在的情况下实现最优性能?

主要发现

  • 带有协变量的非参数赌博机的极小化极大遗憾被下界限定为n^(1 - αβ/(2β + d))阶,其中α > 0,β为光滑性参数,d为协变量维度。
  • 所提出的策略在对数因子内达到该下界,表明其在渐近意义下最优,仅相差log n项。
  • 当光滑性β与维度d固定时,最优遗憾率按n^(2β/(2β + d))缩放,表明更高的光滑性或更低的维度可提升性能。
  • 下界通过在具有受控Hölder范数与分离性的函数类上采用两点检验法推导,表明区分不同动作需要在相关协变量区域进行充分采样。
  • 分析表明,策略在给定协变量区域内对劣质动作的采样次数与局部Kullback-Leibler散度紧密相关,后者决定了区分不同动作的难度。
  • 最终遗憾界被证明在对数因子内是紧的,且其速率与Audibert和Tsybakov(2007)在完全信息设置下的极小化极大速率一致,尽管处于部分信息设置。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。