[论文解读] Improved and Generalized Upper Bounds on the Complexity of Policy Iteration
本文提出了马尔可夫决策过程(MDPs)中策略迭代(PI)收敛复杂度的改进和广义上界。研究表明,Howard的PI在$ O\big(\frac{m}{1-\beta}\log\frac{1}{1-\beta}\big) $次迭代内收敛,而Simplex-PI在$ O\big(\frac{nm}{1-\beta}\log\frac{1}{1-\beta}\big) $次迭代内收敛;在涉及瞬态与遍历态性质的结构假设下,这些上界更加紧密,将强多项式性结果扩展到了更广泛的MDP类别。
Given a Markov Decision Process (MDP) with $n$ states and a totalnumber $m$ of actions, we study the number of iterations needed byPolicy Iteration (PI) algorithms to converge to the optimal$\\gamma$-discounted policy. We consider two variations of PI: Howard'sPI that changes the actions in all states with a positive advantage,and Simplex-PI that only changes the action in the state with maximaladvantage. We show that Howard's PI terminates after at most $O\\left(\\frac{m}{1-\\gamma}\\log\\left(\\frac{1}{1-\\gamma}\ ight)\ ight)$iterations, improving by a factor $O(\\log n)$ a result by Hansen etal., while Simplex-PI terminates after at most $O\\left(\\frac{nm}{1-\\gamma}\\log\\left(\\frac{1}{1-\\gamma}\ ight)\ ight)$iterations, improving by a factor $O(\\log n)$ a result by Ye. Undersome structural properties of the MDP, we then consider bounds thatare independent of the discount factor~$\\gamma$: quantities ofinterest are bounds $\ au\\_t$ and $\ au\\_r$---uniform on all states andpolicies---respectively on the \\emph{expected time spent in transientstates} and \\emph{the inverse of the frequency of visits in recurrentstates} given that the process starts from the uniform distribution.Indeed, we show that Simplex-PI terminates after at most $\ ilde O\\left(n^3 m^2 \ au\\_t \ au\\_r \ ight)$ iterations. This extends arecent result for deterministic MDPs by Post & Ye, in which $\ au\\_t\\le 1$ and $\ au\\_r \\le n$, in particular it shows that Simplex-PI isstrongly polynomial for a much larger class of MDPs. We explain whysimilar results seem hard to derive for Howard's PI. Finally, underthe additional (restrictive) assumption that the state space ispartitioned in two sets, respectively states that are transient andrecurrent for all policies, we show that both Howard's PI andSimplex-PI terminate after at most $\ ilde O(m(n^2\ au\\_t+n\ au\\_r))$iterations.
研究动机与目标
- 改进并推广现有策略迭代(PI)算法在MDPs中收敛所需迭代次数的上界。
- 将强多项式时间收敛结果从确定性MDPs扩展到具有瞬态与遍历态结构特性的更广泛MDP类别。
- 分析两种PI变体——Howard的PI与Simplex-PI——在不同策略更新策略下的收敛行为。
- 利用刻画期望瞬态时间与遍历态访问频率的结构量$\tau_t$和$\tau_r$,推导出与折扣因子$\gamma$无关的上界。
提出的方法
- 分析Howard的PI(每次迭代更新所有优势为正的状态)与Simplex-PI(仅更新优势最大的状态)的机制。
- 引入并利用MDP的结构特性:所有策略下,状态被划分为瞬态集$\mathcal{T}$与遍历态集$\mathcal{R}$。
- 定义$\tau_t$为期望瞬态时间的统一上界,$\tau_r$为在均匀初始化下遍历态中最小访问频率的倒数。
- 利用贝尔曼算子与值函数动态,推导出策略值改进进度的类似压缩的上界。
- 应用斯托尔茨矩阵的Cesàro均值论证变体,以界定向值函数改进速率。
- 采用迭代消除论证:证明每$ O(n\tau_r \log(n^2\tau_r)) $次迭代中,至少会消除一个非最优动作,从而导出对数级迭代上界。
实验结果
研究问题
- RQ1能否通过$ O(\log n) $因子,将Howard的PI收敛复杂度改进至优于$ O\big(\frac{m}{1-\gamma}\log\frac{1}{1-\gamma}\big) $的界?
- RQ2能否利用MDP的结构参数$\tau_t$与$\tau_r$,使Simplex-PI的收敛性上界独立于$\gamma$?
- RQ3是否能够利用瞬态与遍历态的结构特性,将强多项式时间收敛结果扩展至非确定性MDP?
- RQ4为何类似结构上界难以对Howard的PI推导,而对Simplex-PI则较易?
- RQ5在两集合状态划分(瞬态与遍历态)下,是否可将两种PI变体的迭代次数均界为$ \tilde{O}(m(n^2\tau_t + n\tau_r)) $?
主要发现
- Howard的PI最多在$ O\big(\frac{m}{1-\gamma}\log\frac{1}{1-\gamma}\big) $次迭代内收敛,相比Hansen等人(2013)的先前界,改进了$ O(\log n) $因子。
- Simplex-PI最多在$ O\big(\frac{nm}{1-\gamma}\log\frac{1}{1-\gamma}\big) $次迭代内收敛,相比Ye(2011)的先前界,改进了$ O(\log n) $因子。
- 在结构假设下,Simplex-PI在$ \tilde{O}(n^3m^2\tau_t\tau_r) $次迭代内收敛,将Post与Ye(2013)针对确定性MDP的结果推广至更广泛的MDP类别。
- 对于具有瞬态与遍历态状态空间划分的MDP,Howard的PI与Simplex-PI均在$ \tilde{O}(m(n^2\tau_t + n\tau_r)) $次迭代内收敛,且与$\gamma$无关。
- 在两集合假设下,Howard的PI的收敛速率通过值差距的$\ell_1$-范数的几何衰减来界定向,其压缩因子为$ 1 - \frac{1}{n\tau_r} $。
- 本文表明,由于Howard的PI同时更新多个状态,导致动作消除与进度追踪的分析更加复杂,因此难以为该算法推导类似的结构上界。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。