[论文解读] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP
本文提出了一种带有 UCB 探索的 Q-learning 算法,用于无生成模型的无限 discounted MDP,并给出一个 PAC‑MMD 风格的探索样本复杂度界限,为探索的表达式为 ".tilde{O}(SA) / (ε^2 (1−γ)^7)"。
A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.
研究动机与目标
- 动机:在无限时域折扣 MDP 中为无仿真器的模型无关强化学习研究样本效率。
- 提出一个结合 UCB 探索奖金的 Q-learning 算法。
- 在该设定下建立一个类似 PAC 的探索过程样本复杂度界限。
提出的方法
- 提出带 UCB 的无限 Q-learning(算法1),它为每个 (s,a) 维持乐观的 Q 值估计 Q(s,a) 以及一个对每个 (s,a) 的下置信界。
- 在 Q 值更新中引入探索奖金 b_k = c2/(1-¬l) * sqrt(H * iota(k) / k)。
- 使用缓慢变化的学习率 alpha_k = (H+1)/(H+k) 并跟踪计数 N(s,a) 来引导探索。
- 在时刻 t 定义一个 ε-最优性的充分条件,并将其与基于轨迹的误差界(条件1和条件2)联系起来。
- 证明在无限时域内 ε 次优化外的步骤数量的 PAC-MDP 界限,利用一个关键引理对加权学习误差进行界定(引理2)。
- 证明 Algorithm 1 的探索样本复杂度: ~O(SA / (ε^2 (1-¬rac)^{7}))。
实验结果
研究问题
- RQ1在无生成模型的无限-horizon 折扣 MDP 中,带 UCB 探索的无模型 Q-learning 的探索样本复杂度是多少?
- RQ2在无限时域 Setting 中,UCB 风格的探索是否可以相对于先前的无模型算法(如 Delayed Q-learning)带来改进?
- RQ3如何在无限轨迹上定义并界定 ε-最优性,以及哪些充分条件确保在给定时间步的 ε-最优性?
- RQ4新的分析技术如何从有限时域 MDP 适应到无限时域 MDP 的 PAC-MDP 术语?
主要发现
- 所提出的 UCB-Q 学习算法在高概率下实现了探索样本复杂度界限为 ~O(SA / (ε^2 (1-¬rac)^7))。
- 该界限改进了先前在无限时域设定中 Delayed Q-learning 给出的最佳已知界限 ~O(SA / (ε^4 (1-¬rac)^8))。
- 该结果在ε、S、A 的依赖上与相应的下界在对数因子下保持一致。
- 分析凸显了无限时域与有限时域 MDP 之间的本质差异,包括轨迹级误差传播和非连续时间步的误差结构。
- 该算法仅存储 O(SA) 个值,相较于某些基于模型的方案具有内存效率优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。