[论文解读] A New Algorithm for Non-stationary Contextual Bandits: Efficient, Optimal, and Parameter-free
本文提出了第一种无参数、有效且在非平稳环境中达到最优的上下文带臂(bandit)算法,使用重放阶段,在不事先知道 S 或 Δ 的情况下,实现动态遗憾界为 O(min{√(KST), K^{1/3} Δ^{1/3} T^{2/3}})。
We propose the first contextual bandit algorithm that is parameter-free, efficient, and optimal in terms of dynamic regret. Specifically, our algorithm achieves dynamic regret $\mathcal{O}(\min\{\sqrt{ST}, Δ^{\frac{1}{3}}T^{\frac{2}{3}}\})$ for a contextual bandit problem with $T$ rounds, $S$ switches and $Δ$ total variation in data distributions. Importantly, our algorithm is adaptive and does not need to know $S$ or $Δ$ ahead of time, and can be implemented efficiently assuming access to an ERM oracle. Our results strictly improve the $\mathcal{O}(\min \{S^{\frac{1}{4}}T^{\frac{3}{4}}, Δ^{\frac{1}{5}}T^{\frac{4}{5}}\})$ bound of (Luo et al., 2018), and greatly generalize and improve the $\mathcal{O}(\sqrt{ST})$ result of (Auer et al, 2018) that holds only for the two-armed bandit problem without contextual information. The key novelty of our algorithm is to introduce replay phases, in which the algorithm acts according to its previous decisions for a certain amount of time in order to detect non-stationarity while maintaining a good balance between exploration and exploitation.
研究动机与目标
- 引出并处理在一段时间内没有单一策略最优的非平稳环境。
- 提出一个具有动态遗憾保证的无参数上下文带臂算法。
- 在未知环境切换和变动的情况下实现自适应性能。
提出的方法
- 引入重放阶段,算法按照过去的决策运行以检测非平稳性。
- 在重放阶段和正常阶段发展一个具有探索-开发平衡的在线学习框架。
- 证明在T轮、K个动作、S次切换、Δ总变动量的情况下,动态遗憾界为 O(min{√(KST), K^{1/3} Δ^{1/3} T^{2/3}})。
- 假设可以访问 ERM(经验风险最小化)oracle 以实现高效实现。
- 该算法相对于 S 和 Δ 自适应且无参数。
实验结果
研究问题
- RQ1在事先不知道 S 和 Δ 的情况下,如何在上下文带臂中高效检测并处理非平稳性?
- RQ2在带有 ERM oracle 的上下文赌博中,非平稳性下可以达到哪些动态遗憾保证?
- RQ3重放机制是否能够在不牺牲效率的前提下,在上下文设置中实现最优或近似最优的性能?
主要发现
- 实现动态遗憾界为 O(min{√(KST), K^{1/3} Δ^{1/3} T^{2/3}})。
- 算法无参数且自适应未知的 S 和 Δ。
- 重放阶段在保持探索-利用平衡的同时实现非平稳性检测。
- 结果改进了相关工作中的先前界,如无上下文的两臂赌博的 O√(ST) ,以及相关工作中的 O(S^{1/4} T^{3/4}) 或 Δ^{1/5} T^{4/5}。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。