Skip to main content
QUICK REVIEW

[论文解读] Recovering Bandits

Ciara Pike-Burke, Steffen Grünewälder|arXiv (Cornell University)|Jan 1, 2019
Advanced Bandit Algorithms Research被引用 10
一句话总结

本文提出了一种新颖的方法来解决恢复性老虎机问题(recovering bandits problem),其中臂的奖励会随着时间推移而衰减,采用高斯过程联合估计与规划。该方法提出了一种乐观规划近似以提高计算效率,在实现可证明的遗憾边界的同时,在动态环境中展现出优异的实验性能。

ABSTRACT

We study the recovering bandits problem, a variant of the stochastic multi-armed bandit problem where the expected reward of each arm varies according to some unknown function of the time since the arm was last played. While being a natural extension of the classical bandit problem that arises in many real-world settings, this variation is accompanied by significant difficulties. In particular, methods need to plan ahead and estimate many more quantities than in the classical bandit setting. In this work, we explore the use of Gaussian processes to tackle the estimation and planing problem. We also discuss different regret definitions that let us quantify the performance of the methods. To improve computational efficiency of the methods, we provide an optimistic planning approximation. We complement these discussions with regret bounds and empirical studies.

研究动机与目标

  • 解决多臂老虎机问题中奖励随时间依赖衰减的挑战。
  • 开发一种在不确定性下联合估计奖励函数并规划动作的方法。
  • 通过乐观近似改进恢复性老虎机问题中的规划计算效率。
  • 形式化并分析恢复性老虎机设定下的遗憾,引入新型性能度量。

提出的方法

  • 使用高斯过程对每个臂的未知时间衰减奖励函数进行建模。
  • 应用贝叶斯推断,从观测到的播放数据中估计奖励函数。
  • 实施一种乐观规划近似,以降低计算成本,同时保持性能。
  • 提出一种新颖的遗憾定义,以反映奖励的时间依赖性。
  • 利用奖励衰减的结构,设计高效的探索-利用权衡。
  • 在所提框架下推导理论遗憾边界,将估计精度与规划效率联系起来。

实验结果

研究问题

  • RQ1如何在多臂老虎机问题中有效建模与估计时间衰减的奖励函数?
  • RQ2何种高效的规划策略能同时考虑未来的奖励衰减与不确定性?
  • RQ3不同的遗憾定义在多大程度上反映恢复性老虎机中算法的性能?
  • RQ4哪些计算近似方法在降低复杂度的同时仍能保持遗憾保证?
  • RQ5所提方法在动态环境中与基线方法相比,其性能如何?

主要发现

  • 所提方法在新定义的遗憾下实现了可证明的次线性遗憾,展示了长期性能保证。
  • 乐观规划近似显著降低了计算成本,同时未牺牲遗憾性能。
  • 高斯过程能有效建模未知的奖励衰减函数,从而实现准确的估计与规划。
  • 实验研究表明,该方法在奖励随时间变化的动态环境中优于基线方法。
  • 遗憾边界与奖励衰减函数的平滑度及时间特征的维度呈有利的缩放关系。
  • 该框架支持对奖励动态的灵活建模,使其适用于多样化的现实世界老虎机场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。