[论文解读] Near-Optimal Time and Sample Complexities for Solving Discounted Markov Decision Process with a Generative Model
该论文提出了一种方差减少的Q值迭代算法,在使用生成模型求解折扣率马尔可夫决策过程(DMDPs)时,实现了近似最优的时间复杂度和样本复杂度,以计算出$\epsilon$-最优策略。该方法在对数因子范围内达到样本复杂度的下界,并且其运行时间复杂度与样本复杂度在常数因子范围内相等,因此在$1/\sqrt{(1-\gamma)|\mathcal{S}|} \leq \epsilon \leq 1$的范围内,实现了样本和运行时间的最优性。
In this paper we consider the problem of computing an $ε$-optimal policy of a discounted Markov Decision Process (DMDP) provided we can only access its transition function through a generative sampling model that given any state-action pair samples from the transition function in $O(1)$ time. Given such a DMDP with states $S$, actions $A$, discount factor $γ\in(0,1)$, and rewards in range $[0, 1]$ we provide an algorithm which computes an $ε$-optimal policy with probability $1 - δ$ where \emph{both} the time spent and number of sample taken are upper bounded by \[ O\left[\frac{|S||A|}{(1-γ)^3 ε^2} \log \left(\frac{|S||A|}{(1-γ)δε} ight) \log\left(\frac{1}{(1-γ)ε} ight) ight] ~. \] For fixed values of $ε$, this improves upon the previous best known bounds by a factor of $(1 - γ)^{-1}$ and matches the sample complexity lower bounds proved in Azar et al. (2013) up to logarithmic factors. We also extend our method to computing $ε$-optimal policies for finite-horizon MDP with a generative model and provide a nearly matching sample complexity lower bound.
研究动机与目标
- 填补现有算法在使用生成模型计算$\epsilon$-最优策略时,无法同时实现样本和运行时间最优性的空白。
- 弥合该问题中已知最优上界与既定样本复杂度下界之间的理论差距。
- 设计一种算法,在感兴趣的范围内实现样本和运行时间复杂度的最优性,仅在多对数因子范围内。
- 将该方法扩展至有限horizon MDPs,并提供近乎匹配的样本复杂度下界。
- 克服先前方法需要$O((1-\gamma)^{-5}\epsilon^{-2})$样本才能达到$\epsilon$-最优性的局限,改善对$(1-\gamma)^{-1}$的依赖关系。
提出的方法
- 论文提出了一种随机化的方差减少Q值迭代(vQVI)算法,利用方差减少技术提升值迭代过程中的收敛性和稳定性。
- 在Q值更新步骤中应用方差减少,以降低梯度估计中的噪声,从而实现更少样本下的更快收敛。
- 每个状态-动作对通过生成模型采样,该模型提供$O(1)$时间访问转移分布的能力。
- 算法采用稀疏更新策略,以保持低运行时间复杂度,确保总时间与所用样本数成正比。
- 关键的理论组成部分包括使用集中不等式和鞅论证,以高概率界定向估计值与真实值之间的偏差。
- 通过使用折扣因子变换建立有限horizon与无限horizon问题之间的对应关系,将该方法扩展至有限horizon MDPs。
实验结果
研究问题
- RQ1在使用生成模型的折扣率MDP中,计算$\epsilon$-最优策略的最优样本复杂度是多少?
- RQ2能否设计一种算法,使其同时实现最优样本复杂度和最优运行时间复杂度?
- RQ3对折扣因子$(1-\gamma)^{-1}$的依赖关系如何影响现有算法的样本和运行时间复杂度?
- RQ4计算$\epsilon$-最优策略所需的最少样本数的最紧下界是什么?
- RQ5所提出的算法能否扩展至有限horizon MDPs,并实现匹配的样本复杂度下界?
主要发现
- 所提出的vQVI算法以概率$1-\delta$计算出$\epsilon$-最优策略,所需样本数为$O\left[\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^3\epsilon^2}\log\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)\delta\epsilon}\right)\log\left(\frac{1}{(1-\gamma)\epsilon}\right)\right]$。
- 在每次样本转移耗时$O(1)$的假设下,该算法的运行时间复杂度与其样本复杂度在常数因子范围内相等。
- 该算法的样本复杂度在对数因子范围内与[AMK13]中已知的样本复杂度下界相匹配。
- 对于有限horizon MDPs,该方法实现了近乎匹配的样本复杂度下界$\Omega(H^{-3}\epsilon^{-2}|\mathcal{S}||\mathcal{A}|/\log\epsilon^{-1})$。
- 该算法通过将对$(1-\gamma)^{-1}$的依赖关系降低一个$(1-\gamma)^{-1}$因子,优于先前工作,从而弥合了文献中长期存在的差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。