[论文解读] Rising Multi-Armed Bandits with Known Horizons
本文提出 CURE-UCB,一种具有已知时限的 Rising Multi-Armed Bandits 的 horizon-aware 算法,并给出理论上的遗憾界限以及大量经验验证,显示其优于与时限无关的基线。
The Rising Multi-Armed Bandit (RMAB) framework models environments where expected rewards of arms increase with plays, which models practical scenarios where performance of each option improves with the repeated usage, such as in robotics and hyperparameter tuning. For instance, in hyperparameter tuning, the validation accuracy of a model configuration (arm) typically increases with each training epoch. A defining characteristic of RMAB is em horizon-dependent optimality: unlike standard settings, the optimal strategy here shifts dramatically depending on the available budget $T$. This implies that knowledge of $T$ yields significantly greater utility in RMAB, empowering the learner to align its decision-making with this shifting optimality. However, the horizon-aware setting remains underexplored. To address this, we propose a novel CUmulative Reward Estimation UCB (CURE-UCB) that explicitly integrates the horizon. We provide a rigorous analysis establishing a new regret upper bound and prove that our method strictly outperforms horizon-agnostic strategies in structured environments like ``linear-then-flat'' instances. Extensive experiments demonstrate its significant superiority over baselines.
研究动机与目标
- 突出有限时限 RMAB 的时限相关最优性。
- 提出并形式化 CURE-UCB 算法,该算法利用已知时限来估计累计潜在收益。
- 证明在结构化环境中相对于与时限无关的方法的支配性,并为一般凹增环境建立遗憾界限。
- 通过合成实验与真实世界的在线模型选择任务(IMDB)来验证该方法。
提出的方法
- 将 RMAB 定义为凹增奖励函数并设定时限相关的最优策略(单臂最大化累计奖励)。
- 引入 CURE-UCB,构建在剩余时限上的界定累计奖励的时限自适应指数 B_i(t)。
- 将 B_i(t) 分解为最近的平均值、估计的未来增益,以及带滑动窗口 h_i 的探索奖励。
- 通过对每个臂进行两次采样来初始化,然后迭代通过 B_i(t) 的最大值来选择臂。
- 给出理论结果:在线性-先行平坦 (LTF) 设置中的严格支配性(定理 5.2)以及凹增环境的一般遗憾上界(定理 5.4)。
- 与与时限无关的基线(R-ed-UCB)和非平稳基线进行比较,展示时限感知的优势。
实验结果
研究问题
- RQ1明确的时限知识如何影响 RMAB 中臂拉动的最优序列?
- RQ2在结构化与一般上涨奖励设置中,时限感知的估计器是否优于与时限无关的方法?
- RQ3在 RMAB 中,时限感知策略的理论保证(支配性和遗憾界限)是什么?
- RQ4对合成(LTF 与凹增)及真实世界任务的经验结果是否支持时限感知的优势?
主要发现
- CURE-UCB 在不同时限下在 LTF 与凹增设置中持续实现比基线更低的累计遗憾。
- 在结构化的 LTF 环境中,CURE-UCB 相对于与时限无关的 R-ed-UCB 具有严格支配性(定理 5.2)。
- 该方法为凹增环境给出一般遗憾上界(定理 5.4)。
- 实证结果显示 CURE-UCB 在合成基准和在线模型选择任务(IMDB)中排名最好或接近最佳。
- 时限自适应指数 B_i(t) 能有效地识别何时投资于成长与何时利用即时回报。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。