Skip to main content
QUICK REVIEW

[论文解读] Q-learning with Nearest Neighbors

Devavrat Shah, Qiaomin Xie|arXiv (Cornell University)|Feb 12, 2018
Reinforcement Learning in Robotics被引用 18
一句话总结

本文提出近邻Q学习(Nearest Neighbor Q-Learning, NNQL),一种用于连续状态马尔可夫决策过程(MDPs)且动态未知的非参数强化学习算法,利用近邻回归估计最优Q函数。该文建立了紧致的有限样本收敛速率,表明NNQL在样本量为$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$时可实现$\varepsilon$-精度,其中$L$为覆盖时间,并证明了匹配的下界$\widetilde{\Omega}(1/\varepsilon^{d+2})$,从而表明其近乎最优。

ABSTRACT

We consider model-free reinforcement learning for infinite-horizon discounted Markov Decision Processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an arbitrary policy of the system is available. We consider the Nearest Neighbor Q-Learning (NNQL) algorithm to learn the optimal Q function using nearest neighbor regression method. As the main contribution, we provide tight finite sample analysis of the convergence rate. In particular, for MDPs with a $d$-dimensional state space and the discounted factor $γ\in (0,1)$, given an arbitrary sample path with "covering time" $ L $, we establish that the algorithm is guaranteed to output an $\varepsilon$-accurate estimate of the optimal Q-function using $ ilde{O}\big(L/(\varepsilon^3(1-γ)^7)\big)$ samples. For instance, for a well-behaved MDP, the covering time of the sample path under the purely random policy scales as $ ilde{O}\big(1/\varepsilon^d\big),$ so the sample complexity scales as $ ilde{O}\big(1/\varepsilon^{d+3}\big).$ Indeed, we establish a lower bound that argues that the dependence of $ ildeΩ\big(1/\varepsilon^{d+2}\big)$ is necessary.

研究动机与目标

  • 解决在动态未知的连续状态MDP中,非参数Q学习缺乏有限样本收敛分析的问题。
  • 开发一种无需已知转移核的模型无关强化学习算法,仅从单一任意样本路径中学习最优Q函数。
  • 为无限时域折扣MDP中基于近邻的Q学习提供紧致的有限样本收敛保证。
  • 建立匹配的下界,以证明所提样本复杂度的近乎最优性。

提出的方法

  • NNQL利用近邻回归,从单一连续轨迹的状态-动作-奖励转移中估计Q函数。
  • 该算法通过贝尔曼更新对Q值估计进行增量更新,其中期望通过状态空间中k个最近邻来近似。
  • 分析将NNQL视为带偏置的随机逼近过程,将更新分解为两部分,以分别控制偏置与方差。
  • 关键技术环节是刻画近邻近似对总体贝尔曼算子引入的偏置。
  • 该方法利用非参数回归中的结果,特别是Stone的极小极大率,推导估计误差的下界。
  • 理论分析结合了集中不等式与覆盖论证,将误差界表示为轨迹覆盖时间$L$的函数。

实验结果

研究问题

  • RQ1在动态未知的连续状态MDP中,近邻Q学习的有限样本收敛速率如何?
  • RQ2NNQL的样本复杂度如何随近似误差$\varepsilon$、折扣因子$\gamma$以及状态空间维度$d$变化?
  • RQ3该算法能否实现近乎最优的样本复杂度?在此设定下学习最优Q函数的根本极限是什么?
  • RQ4样本路径的覆盖时间$L$如何影响NNQL的收敛速率?

主要发现

  • NNQL算法以高概率在$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$个样本内实现对最优Q函数的$\varepsilon$-精度估计。
  • 对于行为良好的MDP,若采用纯随机策略,则覆盖时间$L$的量级为$\widetilde{O}(1/\varepsilon^d)$,从而总样本复杂度为$\widetilde{O}(1/\varepsilon^{d+3})$。
  • 本文建立了所需样本量的下界$\widetilde{\Omega}(1/\varepsilon^{d+2})$,表明该算法的样本复杂度近乎最优。
  • 分析表明,主要误差来源为近邻近似贝尔曼算子引入的偏置,以及有限且依赖样本带来的方差。
  • 该方法通过将更新分解为两个子更新,提供了非渐近收敛保证,改进了以往对带偏置随机逼近分析的界限。
  • 将非参数回归问题简化为MDP问题,表明MDP问题至少与回归问题一样困难,从而通过Stone的极小极大结果合理化了下界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。