[论文解读] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes
本文提出了两种新颖的无模型强化学习算法,用于无限时域平均奖励马尔可夫决策过程(MDPs)。第一种算法为乐观Q-learning,通过引入一个折扣因子以稳定Q值估计,在弱连通MDP上实现了$Ó(T^{2/3})$的遗憾。第二种算法MDP-OOMD在更强的遍历性假设下,利用自适应bandit技术将遗憾降低至$Ó(√{T})$,优于以往的无模型方法。
Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.
研究动机与目标
- 为无限时域平均奖励MDP中的无模型强化学习填补遗憾边界不足的空白,此前的方法缺乏低遗憾边界。
- 设计内存与计算效率高的算法,避免模型估计,从而实现对大规模问题的可扩展性。
- 在不依赖模型化假设的前提下,实现弱连通与遍历MDP中的次线性遗憾。
- 解决在平均奖励设置中Q值稳定性与无界增长的挑战。
- 将无模型方法的适用范围扩展至一般MDP,超越折扣或有限时域设置。
提出的方法
- 提出乐观Q-learning,将平均奖励MDP重新表述为具有时变折扣因子的折扣MDP,以稳定Q值学习。
- 通过Q值上的上置信度边界实现乐观探索,以平衡探索与利用。
- 采用适应平均奖励设置的UCB算法变体,以控制遗憾增长。
- 应用自适应学习率调度与方差减少技术,提升非遍历环境中的收敛性。
- 对于MDP-OOMD,利用自适应遗憾最小化的对抗性多臂bandit最新进展,实现更紧的边界。
- 采用两阶段学习过程,包含探索与利用阶段,使用基于混合时间的探索调度。
实验结果
研究问题
- RQ1在最小假设下,无模型强化学习能否在无限时域平均奖励MDP中实现次线性遗憾?
- RQ2在Q值可能无界增长的平均奖励MDP中,如何稳定Q值估计?
- RQ3与以往无模型方法相比,自适应bandit技术能否在遍历MDP中改善遗憾边界?
- RQ4在不依赖模型估计的前提下,能否在弱连通MDP中实现$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾?
- RQ5在遗憾与内存效率方面,无模型算法相较于模型基基线方法表现如何?
主要发现
- 乐观Q-learning在弱连通MDP中实现了$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾,是该设置下首个无模型算法达到此结果。
- MDP-OOMD在遍历假设下实现了$\widetilde{\mathcal{O}}(\sqrt{T})$的遗憾,优于Abbasi-Yadkori等人(2019a)的$\mathcal{O}(T^{3/4})$边界。
- 所提算法在实验中优于标准的$\epsilon$-贪婪探索Q-learning,后者表现出线性遗憾。
- 在混合性质较差的环境中(如JumpRiverSwim),尽管理论边界更差,乐观Q-learning仍优于MDP-OOMD与Politex。
- 实验结果表明,两种算法均实现了次线性遗憾,验证了其在真实MDP上的理论保证。
- 这些算法具有内存效率且可扩展,证明了无模型强化学习在大规模平均奖励设置中的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。