QUICK REVIEW

[论文解读] Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning

Yi‐Chen Chen, Mengdi Wang|arXiv (Cornell University)|Dec 8, 2016

Reinforcement Learning in Robotics参考文献 17被引用 43

一句话总结

本文提出了一种用于有限时域和无限时域马尔可夫决策过程（MDP）的模型无关强化学习的随机原始-对偶（SPD）方法，利用贝尔曼方程中的对偶性，实现高效且低存储的在线学习。该方法在有限时域MDP中使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 个样本，在无限时域MDP中使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 个样本，以高概率实现 ϵ-最优策略，通过对偶间隙分析和鞅集中不等式建立了紧致的样本复杂度界限。

ABSTRACT

We study the online estimation of the optimal policy of a Markov decision process (MDP). We propose a class of Stochastic Primal-Dual (SPD) methods which exploit the inherent minimax duality of Bellman equations. The SPD methods update a few coordinates of the value and policy estimates as a new state transition is observed. These methods use small storage and has low computational complexity per iteration. The SPD methods find an absolute-$ε$-optimal policy, with high probability, using $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2σ^2 }{(1-γ)^6ε^2} ight)$ iterations/samples for the infinite-horizon discounted-reward MDP and $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2H^6σ^2 }{ε^2} ight)$ for the finite-horizon MDP.

研究动机与目标

开发一种无需完整掌握转移概率或奖励分布知识的模型无关、可扩展的强化学习算法，并在理论上保证样本复杂度。
通过将贝尔曼方程形式化为随机鞍点问题，利用其内在的原始-对偶结构。
设计一种每轮迭代计算与存储成本低的随机原始-对偶算法，适用于从流式状态转移中进行在线学习。
利用对偶间隙上的概率集中技术，为有限时域和无限时域MDP建立紧致的样本复杂度界限。
证明该方法在多项式时间复杂度内，以高概率实现 ϵ-最优策略。

提出的方法

将贝尔曼方程形式化为随机鞍点问题，其中最优值函数和策略分别为原始解与对偶解。
提出 SPD-dMDP 和 SPD-fMDP 算法，通过单个状态转移的噪声部分梯度，实时更新值函数和策略估计。
使用对特殊构造集合的替代投影，以保持可行性并确保在随机设置下的收敛性。
在有限时域情况下采用时变学习率策略，对早期时间步采用更激进的更新，以平衡误差传播。
分析对偶间隙序列，并对构造的鞅应用伯恩斯坦不等式，以界定期望收敛速率。
将对偶间隙用作策略次优性的代理指标，建立间隙收敛与所学策略近似误差之间的联系。

实验结果

研究问题

RQ1能否设计一种随机原始-对偶方法，使其在模型无关强化学习中实现最优样本复杂度？
RQ2如何利用贝尔曼方程中的内在对偶性，设计低存储、低复杂度的在线学习算法？
RQ3在使用随机、增量更新的方法中，实现有限时域和折扣无限时域MDP中 ϵ-最优策略的最紧样本复杂度界限是什么？
RQ4在有限时域MDP中，如何在时间步上自适应调整学习率，以确保收敛性和最优样本效率？
RQ5对偶间隙能否作为可靠的收敛指标，直接界定所学策略的次优性？

主要发现

SPD-dMDP 算法在无限时域折扣MDP中，以至少 1−δ 的概率，使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
SPD-fMDP 算法在具有 H 个阶段的有限时域MDP中，以至少 1−δ 的概率，使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
样本复杂度界限是紧致的，且在问题参数 |S|、|A|、H、σ 和 1/ϵ 上为多项式关系，对 1/δ 的依赖为对数关系。
对偶间隙序列的收敛速率为 O(1/√T)，在给定条件下意味着期望策略次优性以 O(1/√T) 的速率衰减。
分析表明，对偶间隙上界控制了 ∞-范数下的策略次优性，且该间隙通过 H² 因子与值函数误差相关联。
该方法实现了次线性空间复杂度：在折扣MDP中为 O(|S||A|)，在有限时域MDP中为 O(|S||A|H)，使其可扩展至大规模状态-动作空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。