[论文解读] Q-learning with Nearest Neighbors
本文提出近邻Q学习(Nearest Neighbor Q-Learning, NNQL),一种用于连续状态马尔可夫决策过程(MDPs)且动态未知的非参数强化学习算法,利用近邻回归估计最优Q函数。该文建立了紧致的有限样本收敛速率,表明NNQL在样本量为$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$时可实现$\varepsilon$-精度,其中$L$为覆盖时间,并证明了匹配的下界$\widetilde{\Omega}(1/\varepsilon^{d+2})$,从而表明其近乎最优。
We consider model-free reinforcement learning for infinite-horizon discounted Markov Decision Processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an arbitrary policy of the system is available. We consider the Nearest Neighbor Q-Learning (NNQL) algorithm to learn the optimal Q function using nearest neighbor regression method. As the main contribution, we provide tight finite sample analysis of the convergence rate. In particular, for MDPs with a $d$-dimensional state space and the discounted factor $γ\in (0,1)$, given an arbitrary sample path with "covering time" $ L $, we establish that the algorithm is guaranteed to output an $\varepsilon$-accurate estimate of the optimal Q-function using $ ilde{O}\big(L/(\varepsilon^3(1-γ)^7)\big)$ samples. For instance, for a well-behaved MDP, the covering time of the sample path under the purely random policy scales as $ ilde{O}\big(1/\varepsilon^d\big),$ so the sample complexity scales as $ ilde{O}\big(1/\varepsilon^{d+3}\big).$ Indeed, we establish a lower bound that argues that the dependence of $ ildeΩ\big(1/\varepsilon^{d+2}\big)$ is necessary.
研究动机与目标
- 解决在动态未知的连续状态MDP中,非参数Q学习缺乏有限样本收敛分析的问题。
- 开发一种无需已知转移核的模型无关强化学习算法,仅从单一任意样本路径中学习最优Q函数。
- 为无限时域折扣MDP中基于近邻的Q学习提供紧致的有限样本收敛保证。
- 建立匹配的下界,以证明所提样本复杂度的近乎最优性。
提出的方法
- NNQL利用近邻回归,从单一连续轨迹的状态-动作-奖励转移中估计Q函数。
- 该算法通过贝尔曼更新对Q值估计进行增量更新,其中期望通过状态空间中k个最近邻来近似。
- 分析将NNQL视为带偏置的随机逼近过程,将更新分解为两部分,以分别控制偏置与方差。
- 关键技术环节是刻画近邻近似对总体贝尔曼算子引入的偏置。
- 该方法利用非参数回归中的结果,特别是Stone的极小极大率,推导估计误差的下界。
- 理论分析结合了集中不等式与覆盖论证,将误差界表示为轨迹覆盖时间$L$的函数。
实验结果
研究问题
- RQ1在动态未知的连续状态MDP中,近邻Q学习的有限样本收敛速率如何?
- RQ2NNQL的样本复杂度如何随近似误差$\varepsilon$、折扣因子$\gamma$以及状态空间维度$d$变化?
- RQ3该算法能否实现近乎最优的样本复杂度?在此设定下学习最优Q函数的根本极限是什么?
- RQ4样本路径的覆盖时间$L$如何影响NNQL的收敛速率?
主要发现
- NNQL算法以高概率在$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$个样本内实现对最优Q函数的$\varepsilon$-精度估计。
- 对于行为良好的MDP,若采用纯随机策略,则覆盖时间$L$的量级为$\widetilde{O}(1/\varepsilon^d)$,从而总样本复杂度为$\widetilde{O}(1/\varepsilon^{d+3})$。
- 本文建立了所需样本量的下界$\widetilde{\Omega}(1/\varepsilon^{d+2})$,表明该算法的样本复杂度近乎最优。
- 分析表明,主要误差来源为近邻近似贝尔曼算子引入的偏置,以及有限且依赖样本带来的方差。
- 该方法通过将更新分解为两个子更新,提供了非渐近收敛保证,改进了以往对带偏置随机逼近分析的界限。
- 将非参数回归问题简化为MDP问题,表明MDP问题至少与回归问题一样困难,从而通过Stone的极小极大结果合理化了下界。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。