[论文解读] On Upper-Confidence Bound Policies for Non-Stationary Bandit Problems
本文提出并分析了两种上置信度(UCB)算法——折扣UCB和滑动窗口UCB——用于奖励分布存在突变的非平稳多臂赌博机问题。研究证明,这两种算法的遗憾界与信息论下界仅相差一个对数因子,从而在非平稳环境中实现了近似最优性能。
Multi-armed bandit problems are considered as a paradigm of the trade-off between exploring the environment to find profitable actions and exploiting what is already known. In the stationary case, the distributions of the rewards do not change in time, Upper-Confidence Bound (UCB) policies have been shown to be rate optimal. A challenging variant of the MABP is the non-stationary bandit problem where the gambler must decide which arm to play while facing the possibility of a changing environment. In this paper, we consider the situation where the distributions of rewards remain constant over epochs and change at unknown time instants. We analyze two algorithms: the discounted UCB and the sliding-window UCB. We establish for these two algorithms an upper-bound for the expected regret by upper-bounding the expectation of the number of times a suboptimal arm is played. For that purpose, we derive a Hoeffding type inequality for self normalized deviations with a random number of summands. We establish a lower-bound for the regret in presence of abrupt changes in the arms reward distributions. We show that the discounted UCB and the sliding-window UCB both match the lower-bound up to a logarithmic factor.
研究动机与目标
- 解决多臂赌博机问题中奖励分布在未知时间点发生突变的非平稳环境挑战。
- 克服平稳UCB策略的局限性,后者无法随时间追踪最优动作的变化。
- 提出并分析两种自适应UCB算法——折扣UCB与滑动窗口UCB——以追踪奖励分布的变化。
- 为这些算法建立理论遗憾界,并与推导出的非平稳赌博机下界进行比较。
- 提出一种适用于随机数量求和项的自标准化偏差的新型Hoeffding型不等式,以支持分析。
提出的方法
- 提出折扣UCB算法,对过去奖励分配指数递减的权重,使近期观测获得更高重要性。
- 引入滑动窗口UCB算法,维护一个固定大小的近期观测窗口,忽略超过窗口大小的数据。
- 推导出当求和项数量为随机且依赖于过程历史时,自标准化偏差的新型Hoeffding型不等式。
- 利用该不等式上界化子最优动作被选择的期望次数,从而直接控制遗憾。
- 应用集中不等式与鞅论证,分析非平稳环境下UCB指数的行为。
- 为具有突变的非平稳设置下任意策略的遗憾建立下界,提供最优性的基准。
实验结果
研究问题
- RQ1UCB类算法能否被调整以追踪非平稳赌博机问题中奖励分布的变化?
- RQ2当奖励分布发生突变时,折扣UCB与滑动窗口UCB算法在遗憾表现上如何?
- RQ3在具有未知突变点的非平稳赌博机问题中,遗憾的根本极限(下界)是什么?
- RQ4UCB的分析能否扩展至处理随机数量求和项的自标准化偏差?
- RQ5所提出的算法是否能达到与信息论下界渐近接近的遗憾?
主要发现
- 折扣UCB与滑动窗口UCB算法的遗憾界均与推导出的下界仅相差一个对数因子,证明了其近似最优性。
- 本文为两种算法建立了非渐近的期望遗憾上界,表明其能有效适应环境变化。
- 推导出一种适用于随机数量求和项的自标准化偏差的新型Hoeffding型不等式,并作为关键技术工具使用。
- 分析表明,次优动作被选择的次数受到严格控制,这直接导致了遗憾界的成立。
- 建立了具有突变的非平稳设置下遗憾的下界,表明任何策略的遗憾增长均无法优于T的对数阶,最多相差一个常数因子。
- 在非平稳环境中,所提算法优于标准的平稳UCB策略,因为后者无法追踪最优动作的变化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。