QUICK REVIEW

[论文解读] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes

Chen-Yu Wei, Mehdi Jafarnia-Jahromi|arXiv (Cornell University)|Oct 15, 2019

Advanced Bandit Algorithms Research参考文献 38被引用 19

一句话总结

本文提出了两种新颖的无模型强化学习算法，用于无限时域平均奖励马尔可夫决策过程（MDPs）。第一种算法为乐观Q-learning，通过引入一个折扣因子以稳定Q值估计，在弱连通MDP上实现了$Ó(T^{2/3})$的遗憾。第二种算法MDP-OOMD在更强的遍历性假设下，利用自适应bandit技术将遗憾降低至$Ó(√{T})$，优于以往的无模型方法。

ABSTRACT

Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.

研究动机与目标

为无限时域平均奖励MDP中的无模型强化学习填补遗憾边界不足的空白，此前的方法缺乏低遗憾边界。
设计内存与计算效率高的算法，避免模型估计，从而实现对大规模问题的可扩展性。
在不依赖模型化假设的前提下，实现弱连通与遍历MDP中的次线性遗憾。
解决在平均奖励设置中Q值稳定性与无界增长的挑战。
将无模型方法的适用范围扩展至一般MDP，超越折扣或有限时域设置。

提出的方法

提出乐观Q-learning，将平均奖励MDP重新表述为具有时变折扣因子的折扣MDP，以稳定Q值学习。
通过Q值上的上置信度边界实现乐观探索，以平衡探索与利用。
采用适应平均奖励设置的UCB算法变体，以控制遗憾增长。
应用自适应学习率调度与方差减少技术，提升非遍历环境中的收敛性。
对于MDP-OOMD，利用自适应遗憾最小化的对抗性多臂bandit最新进展，实现更紧的边界。
采用两阶段学习过程，包含探索与利用阶段，使用基于混合时间的探索调度。

实验结果

研究问题

RQ1在最小假设下，无模型强化学习能否在无限时域平均奖励MDP中实现次线性遗憾？
RQ2在Q值可能无界增长的平均奖励MDP中，如何稳定Q值估计？
RQ3与以往无模型方法相比，自适应bandit技术能否在遍历MDP中改善遗憾边界？
RQ4在不依赖模型估计的前提下，能否在弱连通MDP中实现$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾？
RQ5在遗憾与内存效率方面，无模型算法相较于模型基基线方法表现如何？

主要发现

乐观Q-learning在弱连通MDP中实现了$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾，是该设置下首个无模型算法达到此结果。
MDP-OOMD在遍历假设下实现了$\widetilde{\mathcal{O}}(\sqrt{T})$的遗憾，优于Abbasi-Yadkori等人（2019a）的$\mathcal{O}(T^{3/4})$边界。
所提算法在实验中优于标准的$\epsilon$-贪婪探索Q-learning，后者表现出线性遗憾。
在混合性质较差的环境中（如JumpRiverSwim），尽管理论边界更差，乐观Q-learning仍优于MDP-OOMD与Politex。
实验结果表明，两种算法均实现了次线性遗憾，验证了其在真实MDP上的理论保证。
这些算法具有内存效率且可扩展，证明了无模型强化学习在大规模平均奖励设置中的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。