[论文解读] Taming Non-stationary Bandits: A Bayesian Approach
本文提出了折扣汤普森采样(dTS)及其乐观变体dOTS,用于非平稳多臂老虎机问题,采用贝叶斯更新并结合对过去观测的指数衰减,同时提高未选择动作的方差。这些算法在动态环境中实现了低且稳定的遗憾,其中dOTS在快速变化和突变场景中优于dTS和标准TS。
We consider the multi armed bandit problem in non-stationary environments. Based on the Bayesian method, we propose a variant of Thompson Sampling which can be used in both rested and restless bandit scenarios. Applying discounting to the parameters of prior distribution, we describe a way to systematically reduce the effect of past observations. Further, we derive the exact expression for the probability of picking sub-optimal arms. By increasing the exploitative value of Bayes' samples, we also provide an optimistic version of the algorithm. Extensive empirical analysis is conducted under various scenarios to validate the utility of proposed algorithms. A comparison study with various state-of-the-arm algorithms is also included.
研究动机与目标
- 解决多臂老虎机问题中奖励分布随时间演变的非平稳环境挑战。
- 克服标准汤普森采样所假设的平稳性局限,后者在非平稳环境中表现不佳。
- 开发一种贝叶斯框架,系统性地降低过时观测的影响,同时保持探索能力。
- 通过提高未选择动作的先验方差来增强其探索能力,从而提升对环境变化的适应性。
- 通过理论和实证验证,评估所提算法在多样化非平稳老虎机场景中的表现。
提出的方法
- 对先验分布的参数应用指数衰减,以随时间减少过去观测的影响。
- 采用具有时间衰减参数的Beta-Bernoulli共轭先验框架,以建模演化中的成功概率。
- 引入一种机制,提高未选择动作后验分布的方差,从而在非平稳环境中促进探索。
- 通过提高贝叶斯样本的利用价值,提出一种乐观变体dOTS,以偏好具有更高经验均值的动作。
- 推导出在非整数参数的两臂老虎机设置下,选择次优动作的精确解析表达式。
- 在多种非平稳环境(包括缓慢、快速和突变变化)中实现并评估dTS和dOTS。
实验结果
研究问题
- RQ1能否通过系统性地遗忘历史数据,有效将贝叶斯汤普森采样适配到非平稳环境?
- RQ2在动态老虎机设置中,提高未选择动作先验方差对性能有何影响?
- RQ3在非平稳条件下,对于具有非整数先验参数的两臂老虎机,选择次优动作的精确概率是多少?
- RQ4与EXP3-IX和REXP3等最先进算法相比,dTS和dOTS在遗憾和适应性方面表现如何?
- RQ5dTS和dOTS在非平稳环境中,随着动作数量增加,性能是否仍能良好扩展?
主要发现
- dTS和dOTS在缓慢、快速和突变变化环境中均保持几乎恒定的归一化遗憾,而标准汤普森采样则表现出不断增长的遗憾。
- 尽管dOTS具有更高的利用偏差,但在快速变化和突变场景中仍优于dTS,表明乐观采样有助于适应。
- REXP3由于依赖随机探索,在初始阶段表现不佳,但最终趋于稳定;而dTS和dOTS从一开始就表现出一致的学习能力。
- 随着动作数量的增加,dTS和dOTS的遗憾保持稳定,表明其对动作数量的依赖性较弱,与REXP3相比更具优势。
- REXP3在动作数量增加时遗憾持续上升,尤其在突变环境中表现更差,表明其对动作数量高度敏感。
- 所提出的针对非整数参数的次优动作选择概率的精确表达式是新颖的,为未来在非平稳环境下对汤普森采样进行理论分析奠定了基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。