[论文解读] Primal-Dual $π$ Learning: Sample Complexity and Sublinear Run Time for Ergodic Markov Decision Problems
该论文提出了一种名为Primal-Dual π Learning的无模型强化学习方法,通过利用价值函数与策略之间的线性对偶性,解决无限时域平均奖励马尔可夫决策过程(MDPs)。该方法实现了Õ((τ·t*_{mix})²|S||A|/ε²)的最优样本复杂度和次线性运行时间,从而在不使用折扣因子的情况下实现高效的策略优化。
Consider the problem of approximating the optimal policy of a Markov decision process (MDP) by sampling state transitions. In contrast to existing reinforcement learning methods that are based on successive approximations to the nonlinear Bellman equation, we propose a Primal-Dual $π$ Learning method in light of the linear duality between the value and policy. The $π$ learning method is model-free and makes primal-dual updates to the policy and value vectors as new data are revealed. For infinite-horizon undiscounted Markov decision process with finite state space $S$ and finite action space $A$, the $π$ learning method finds an $ε$-optimal policy using the following number of sample transitions $$ ilde{O}( \frac{(τ\cdot t^*_{mix})^2 |S| |A| }{ε^2} ),$$ where $t^*_{mix}$ is an upper bound of mixing times across all policies and $τ$ is a parameter characterizing the range of stationary distributions across policies. The $π$ learning method also applies to the computational problem of MDP where the transition probabilities and rewards are explicitly given as the input. In the case where each state transition can be sampled in $ ilde{O}(1)$ time, the $π$ learning method gives a sublinear-time algorithm for solving the averaged-reward MDP.
研究动机与目标
- 开发一种无模型强化学习方法,避免在无限时域平均奖励MDP中使用人为的折扣因子。
- 解决未折扣MDP的分析挑战,这类MDP缺乏压缩性质,使得收敛性分析更加复杂。
- 仅使用采样得到的状态转移数据,实现求解遍历MDP时的低样本复杂度和次线性运行时间。
- 建立一种计算框架,即使在显式给出完整MDP模型时也保持高效。
- 证明该方法的样本复杂度与运行时间复杂度相等,反映出最大的计算效率。
提出的方法
- 该方法通过原始-对偶更新,随着新状态转移的观测,同时优化策略和价值向量的估计。
- 其理论基础是MDP中价值函数与策略之间的线性对偶性,将贝尔曼方程重新表述为一个鞍点问题。
- 该算法维护一个随机策略和一个辅助价值向量,利用从采样转移中导出的随机梯度进行更新。
- 一个采样预言机(SO)在O(1)时间内提供状态-动作-奖励转移,支持高效的在线学习。
- 该方法采用包含K次迭代的随机迭代方案,每次迭代采样一个转移并执行坐标更新。
- 通过联合界和浓度不等式,确保最终策略以高概率达到ε-最优。
实验结果
研究问题
- RQ1是否存在一种无模型强化学习方法,能够在不依赖折扣因子的情况下,实现求解平均奖励MDP的次线性运行时间?
- RQ2在具有有限状态和动作空间的未折扣、遍历MDP中,学习ε-最优策略的最优样本复杂度是多少?
- RQ3混合时间(t*_{mix})和平稳分布范围(τ)如何影响样本复杂度和运行时间复杂度?
- RQ4是否可以利用MDP的原始-对偶结构,设计出样本复杂度与运行时间复杂度相匹配的方法?
- RQ5是否可能仅使用O((τ·t*_{mix})²|S||A|/ε²)组样本和更新,以高概率实现ε-最优?
主要发现
- Primal-Dual π Learning方法在遍历MDP中寻找ε-最优策略时,实现了Õ((τ·t*_{mix})²|S||A|/ε²)的样本复杂度。
- 当状态转移可在O(1)时间内采样时,该方法的运行时间相对于输入规模为次线性,具体为Õ((τ·t*_{mix})²|S||A|/ε²)。
- 通过使用K=O(log(1/δ))次迭代,该方法以至少1−δ的概率确保ε-最优性,同时对策略评估和价值估计提供了高概率界。
- 样本复杂度与运行时间复杂度渐近等价,表明每个样本都被以最大计算效率使用。
- 该方法在强化学习(MDP未知)和计算MDP求解(MDP模型已知)中均适用,展现出广泛的应用潜力。
- 理论分析表明,该方法避免了对折扣因子的需求,同时保持了强收敛保证,克服了先前方法的主要局限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。