QUICK REVIEW

[论文解读] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism

Wang Chi Cheung, David Simchi‐Levi|arXiv (Cornell University)|Jun 24, 2020

Advanced Bandit Algorithms Research参考文献 66被引用 25

一句话总结

该论文针对奖励和转移概率随时间变化且受变化预算约束的非平稳马尔可夫决策过程，提出了 SWUCRL2-CW 和 BORL 算法。它引入了一种新颖的置信区间加宽技术，结合增强的乐观性，以应对非平稳强化学习中的挑战，实现了动态遗憾上界为 $\tilde{O}(D_{\text{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4})$，且无需事先知晓变化预算。

ABSTRACT

We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under drifting non-stationarity, i.e., both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, i.e., without knowing the variation budgets. Notably, learning non-stationary MDPs via the conventional optimistic exploration technique presents a unique challenge absent in existing (non-stationary) bandit learning settings. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism.

研究动机与目标

解决在奖励与转移分布随时间演变且受变化预算约束的非平稳 MDP 中进行学习的挑战。
通过引入一种新颖的置信区间加宽机制，克服传统乐观探索在非平稳强化学习中失效的问题。
设计一种无参数算法（BORL），可自适应调整超参数，而无需事先知晓变化预算。
为非平稳 MDP 中已知与未知变化预算情形建立紧致的动态遗憾上界。

提出的方法

提出 SWUCRL2-CW，一种滑动窗口 UCB 算法，结合置信区间加宽，通过引入额外的乐观性以应对非平稳动态。
采用基于块的结构，每个块使用固定的窗口长度 $W_i$ 和置信区间加宽参数 $\eta_i$ 来估计值函数。
在 BORL 中应用 EXP3.P 算法，自适应选择各块的 $W_i$ 和 $\eta_i$，将参数选择视为对抗性多臂老虎机问题。
利用置信区间加宽扩展不确定性区间，确保在环境漂移时仍保持乐观性，这对非平稳 MDP 至关重要。
将遗憾分解为两部分：固定参数带来的遗憾，以及通过 EXP3.P 自适应选择参数带来的遗憾。
利用 EXP3.P 的 $\tilde{O}(\sqrt{TH})$ 遗憾上界处理自适应部分，并与 SWUCRL2-CW 的理论边界相结合。

实验结果

研究问题

RQ1能否将乐观探索有效扩展至奖励与转移均随时间变化的非平稳 MDP？
RQ2为何非平稳 bandit 或分段平稳 MDP 的标准技术在具有内生性的完整强化学习设置中会失效？
RQ3如何加宽置信区间，以在未知变化预算的情况下，维持非平稳环境中的乐观性？
RQ4能否设计一种无参数算法，使其能自适应应对未知的非平稳性，同时保持次线性动态遗憾？
RQ5在非平稳 MDP 中，为最小化动态遗憾，窗口长度与置信区间加宽之间应如何权衡？

主要发现

当变化预算已知时，SWUCRL2-CW 算法的动态遗憾上界为 $\tilde{O}\left(\frac{B_p W}{\eta} + B_r W + D_{\text{max}}\left[B_p W + \frac{S\sqrt{A}T}{\sqrt{W}} + T\eta + \frac{SAT}{W} + \sqrt{TH}\right]\right)$。
BORL 算法通过 EXP3.P 自适应调节窗口长度与置信区间加宽参数，以无参数方式实现相同的遗憾上界。
BORL 的动态遗憾被限制在 $\tilde{O}\left(D_{\text{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4}\right)$，与最优率仅相差对数因子。
置信区间加宽技术对于在非平稳 MDP 中维持乐观性至关重要，因为标准乐观性会因环境漂移而失效。
分析表明，简单地将非平稳 bandit 或分段平稳 MDP 技术应用于完整强化学习设置，会导致较差的遗憾上界。
理论框架表明，所提方法在时间 $T$、状态空间 $S$、动作空间 $A$ 以及变化预算 $B_r, B_p$ 上实现了接近最优的遗憾缩放。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。