QUICK REVIEW

[论文解读] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP

Kefan Dong, Yuanhao Wang|arXiv (Cornell University)|Jan 27, 2019

Reinforcement Learning in Robotics参考文献 16被引用 37

一句话总结

本文提出了一种带有 UCB 探索的 Q-learning 算法，用于无生成模型的无限 discounted MDP，并给出一个 PAC‑MMD 风格的探索样本复杂度界限，为探索的表达式为 ".tilde{O}(SA) / (ε^2 (1−γ)^7)"。

ABSTRACT

A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.

研究动机与目标

动机：在无限时域折扣 MDP 中为无仿真器的模型无关强化学习研究样本效率。
提出一个结合 UCB 探索奖金的 Q-learning 算法。
在该设定下建立一个类似 PAC 的探索过程样本复杂度界限。

提出的方法

提出带 UCB 的无限 Q-learning（算法1），它为每个 (s,a) 维持乐观的 Q 值估计 Q(s,a) 以及一个对每个 (s,a) 的下置信界。
在 Q 值更新中引入探索奖金 b_k = c2/(1-¬l) * sqrt(H * iota(k) / k)。
使用缓慢变化的学习率 alpha_k = (H+1)/(H+k) 并跟踪计数 N(s,a) 来引导探索。
在时刻 t 定义一个 ε-最优性的充分条件，并将其与基于轨迹的误差界（条件1和条件2）联系起来。
证明在无限时域内 ε 次优化外的步骤数量的 PAC-MDP 界限，利用一个关键引理对加权学习误差进行界定（引理2）。
证明 Algorithm 1 的探索样本复杂度： ~O(SA / (ε^2 (1-¬rac)^{7}))。

实验结果

研究问题

RQ1在无生成模型的无限-horizon 折扣 MDP 中，带 UCB 探索的无模型 Q-learning 的探索样本复杂度是多少？
RQ2在无限时域 Setting 中，UCB 风格的探索是否可以相对于先前的无模型算法（如 Delayed Q-learning）带来改进？
RQ3如何在无限轨迹上定义并界定 ε-最优性，以及哪些充分条件确保在给定时间步的 ε-最优性？
RQ4新的分析技术如何从有限时域 MDP 适应到无限时域 MDP 的 PAC-MDP 术语？

主要发现

所提出的 UCB-Q 学习算法在高概率下实现了探索样本复杂度界限为 ~O(SA / (ε^2 (1-¬rac)^7))。
该界限改进了先前在无限时域设定中 Delayed Q-learning 给出的最佳已知界限 ~O(SA / (ε^4 (1-¬rac)^8))。
该结果在ε、S、A 的依赖上与相应的下界在对数因子下保持一致。
分析凸显了无限时域与有限时域 MDP 之间的本质差异，包括轨迹级误差传播和非连续时间步的误差结构。
该算法仅存储 O(SA) 个值，相较于某些基于模型的方案具有内存效率优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。