[论文解读] A Sliding-Window Algorithm for Markov Decision Processes with Arbitrarily Changing Rewards and Transitions
本文提出 SW-Ucrl,一种用于奖励和转移概率任意变化的马尔可夫决策过程(MDPs)的滑动窗口强化学习算法。通过维护最近经验的有限窗口,该算法能够快速适应变化,其相对于最优非平稳策略的遗憾界为 $\mathcal{O}(l^{1/3}T^{2/3}D^{2/3}S^{2/3}(A\log(T/\delta))^{1/3})$,在依赖于变化次数、状态空间和动作数方面优于先前方法。
We consider reinforcement learning in changing Markov Decision Processes where both the state-transition probabilities and the reward functions may vary over time. For this problem setting, we propose an algorithm using a sliding window approach and provide performance guarantees for the regret evaluated against the optimal non-stationary policy. We also characterize the optimal window size suitable for our algorithm. These results are complemented by a sample complexity bound on the number of sub-optimal steps taken by the algorithm. Finally, we present some experimental results to support our theoretical analysis.
研究动机与目标
- 解决奖励函数和转移概率随时间任意变化的 MDP 中的强化学习问题。
- 开发一种在不依赖变化点先验知识的情况下能快速适应此类变化的算法。
- 在切换 MDP 中,为最优非平稳策略提供高概率遗憾边界。
- 推导算法在非最优动作上所采取步数的样本复杂度边界。
- 通过在合成切换-MDP 上的实验评估,验证理论结果。
提出的方法
- SW-Ucrl 算法是 Ucrl2 的变体,利用最近转移的滑动窗口来估计状态-动作转移和奖励分布。
- 它维护一个大小为 $W$ 的有限窗口,并仅在窗口填满或触发新回合时重新计算策略。
- 窗口大小 $W$ 根据问题参数(包括变化次数 $l$、状态空间大小 $S$、动作空间大小 $A$ 和时间范围 $T$)自适应选择。
- 该算法使用 UCB 风格的探索奖励,以在滑动窗口内平衡探索与利用。
- 通过将遗憾分解为稳定回合内的学习遗憾和 MDP 变化引起的遗憾,进行遗憾分析。
- 通过分析每个窗口内收敛前非最优动作被采取的次数,推导出样本复杂度边界。
实验结果
研究问题
- RQ1滑动窗口方法在切换 MDP 中是否能实现比 Ucrl2 重启方法更优的 $D$、$S$ 和 $A$ 依赖性遗憾?
- RQ2SW-Ucrl 的最优窗口大小 $W$ 是什么,能最小化遗憾边界?
- RQ3当变化发生在未知时间间隔时,该算法在实际中表现如何?
- RQ4该算法是否能在不事先知道变化次数的情况下实现非最优步数的边界?
- RQ5奖励和转移变化程度与可实现的最小遗憾之间是否存在关联?
主要发现
- 当窗口大小被最优选择时,SW-Ucrl 的遗憾被限制在 $\mathcal{O}(l^{1/3}T^{2/3}D^{2/3}S^{2/3}(A\log(T/\delta))^{1/3})$ 以内。
- 与 Ucrl2 重启方法相比,该遗憾边界在 $D$、$S$ 和 $A$ 的依赖性上有所改进,尤其在状态空间和动作空间较大时更为显著。
- 实验结果表明,该算法表现良好,当变化次数从 2 增加到 4 时,其遗憾低于 Ucrl2 重启方法。
- 遗憾曲线在变化点处表现出特征性的“凸起”,证实了算法对 MDP 变化的响应能力。
- 建立了样本复杂度边界,表明非最优步数受窗口大小和问题参数的控制。
- 推导出最优窗口大小 $W$ 作为 $T$、$l$、$S$、$A$ 和 $\delta$ 的函数,平衡了学习精度与适应速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。