Skip to main content
QUICK REVIEW

[论文解读] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP

Kefan Dong, Yuanhao Wang|arXiv (Cornell University)|Jan 27, 2019
Reinforcement Learning in Robotics参考文献 16被引用 37
一句话总结

本文提出了一种带有 UCB 探索的 Q-learning 算法,用于无生成模型的无限 discounted MDP,并给出一个 PAC‑MMD 风格的探索样本复杂度界限,为探索的表达式为 ".tilde{O}(SA) / (ε^2 (1−γ)^7)"。

ABSTRACT

A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.

研究动机与目标

  • 动机:在无限时域折扣 MDP 中为无仿真器的模型无关强化学习研究样本效率。
  • 提出一个结合 UCB 探索奖金的 Q-learning 算法。
  • 在该设定下建立一个类似 PAC 的探索过程样本复杂度界限。

提出的方法

  • 提出带 UCB 的无限 Q-learning(算法1),它为每个 (s,a) 维持乐观的 Q 值估计 Q(s,a) 以及一个对每个 (s,a) 的下置信界。
  • 在 Q 值更新中引入探索奖金 b_k = c2/(1-¬l) * sqrt(H * iota(k) / k)。
  • 使用缓慢变化的学习率 alpha_k = (H+1)/(H+k) 并跟踪计数 N(s,a) 来引导探索。
  • 在时刻 t 定义一个 ε-最优性的充分条件,并将其与基于轨迹的误差界(条件1和条件2)联系起来。
  • 证明在无限时域内 ε 次优化外的步骤数量的 PAC-MDP 界限,利用一个关键引理对加权学习误差进行界定(引理2)。
  • 证明 Algorithm 1 的探索样本复杂度: ~O(SA / (ε^2 (1-¬rac)^{7}))。

实验结果

研究问题

  • RQ1在无生成模型的无限-horizon 折扣 MDP 中,带 UCB 探索的无模型 Q-learning 的探索样本复杂度是多少?
  • RQ2在无限时域 Setting 中,UCB 风格的探索是否可以相对于先前的无模型算法(如 Delayed Q-learning)带来改进?
  • RQ3如何在无限轨迹上定义并界定 ε-最优性,以及哪些充分条件确保在给定时间步的 ε-最优性?
  • RQ4新的分析技术如何从有限时域 MDP 适应到无限时域 MDP 的 PAC-MDP 术语?

主要发现

  • 所提出的 UCB-Q 学习算法在高概率下实现了探索样本复杂度界限为 ~O(SA / (ε^2 (1-¬rac)^7))。
  • 该界限改进了先前在无限时域设定中 Delayed Q-learning 给出的最佳已知界限 ~O(SA / (ε^4 (1-¬rac)^8))。
  • 该结果在ε、S、A 的依赖上与相应的下界在对数因子下保持一致。
  • 分析凸显了无限时域与有限时域 MDP 之间的本质差异,包括轨迹级误差传播和非连续时间步的误差结构。
  • 该算法仅存储 O(SA) 个值,相较于某些基于模型的方案具有内存效率优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。