Skip to main content
QUICK REVIEW

[论文解读] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes

Chen-Yu Wei, Mehdi Jafarnia-Jahromi|arXiv (Cornell University)|Oct 15, 2019
Advanced Bandit Algorithms Research参考文献 38被引用 19
一句话总结

本文提出了两种新颖的无模型强化学习算法,用于无限时域平均奖励马尔可夫决策过程(MDPs)。第一种算法为乐观Q-learning,通过引入一个折扣因子以稳定Q值估计,在弱连通MDP上实现了$Ó(T^{2/3})$的遗憾。第二种算法MDP-OOMD在更强的遍历性假设下,利用自适应bandit技术将遗憾降低至$Ó(√{T})$,优于以往的无模型方法。

ABSTRACT

Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.

研究动机与目标

  • 为无限时域平均奖励MDP中的无模型强化学习填补遗憾边界不足的空白,此前的方法缺乏低遗憾边界。
  • 设计内存与计算效率高的算法,避免模型估计,从而实现对大规模问题的可扩展性。
  • 在不依赖模型化假设的前提下,实现弱连通与遍历MDP中的次线性遗憾。
  • 解决在平均奖励设置中Q值稳定性与无界增长的挑战。
  • 将无模型方法的适用范围扩展至一般MDP,超越折扣或有限时域设置。

提出的方法

  • 提出乐观Q-learning,将平均奖励MDP重新表述为具有时变折扣因子的折扣MDP,以稳定Q值学习。
  • 通过Q值上的上置信度边界实现乐观探索,以平衡探索与利用。
  • 采用适应平均奖励设置的UCB算法变体,以控制遗憾增长。
  • 应用自适应学习率调度与方差减少技术,提升非遍历环境中的收敛性。
  • 对于MDP-OOMD,利用自适应遗憾最小化的对抗性多臂bandit最新进展,实现更紧的边界。
  • 采用两阶段学习过程,包含探索与利用阶段,使用基于混合时间的探索调度。

实验结果

研究问题

  • RQ1在最小假设下,无模型强化学习能否在无限时域平均奖励MDP中实现次线性遗憾?
  • RQ2在Q值可能无界增长的平均奖励MDP中,如何稳定Q值估计?
  • RQ3与以往无模型方法相比,自适应bandit技术能否在遍历MDP中改善遗憾边界?
  • RQ4在不依赖模型估计的前提下,能否在弱连通MDP中实现$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾?
  • RQ5在遗憾与内存效率方面,无模型算法相较于模型基基线方法表现如何?

主要发现

  • 乐观Q-learning在弱连通MDP中实现了$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾,是该设置下首个无模型算法达到此结果。
  • MDP-OOMD在遍历假设下实现了$\widetilde{\mathcal{O}}(\sqrt{T})$的遗憾,优于Abbasi-Yadkori等人(2019a)的$\mathcal{O}(T^{3/4})$边界。
  • 所提算法在实验中优于标准的$\epsilon$-贪婪探索Q-learning,后者表现出线性遗憾。
  • 在混合性质较差的环境中(如JumpRiverSwim),尽管理论边界更差,乐观Q-learning仍优于MDP-OOMD与Politex。
  • 实验结果表明,两种算法均实现了次线性遗憾,验证了其在真实MDP上的理论保证。
  • 这些算法具有内存效率且可扩展,证明了无模型强化学习在大规模平均奖励设置中的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。