Skip to main content
QUICK REVIEW

[论文解读] Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning

Yi‐Chen Chen, Mengdi Wang|arXiv (Cornell University)|Dec 8, 2016
Reinforcement Learning in Robotics参考文献 17被引用 43
一句话总结

本文提出了一种用于有限时域和无限时域马尔可夫决策过程(MDP)的模型无关强化学习的随机原始-对偶(SPD)方法,利用贝尔曼方程中的对偶性,实现高效且低存储的在线学习。该方法在有限时域MDP中使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 个样本,在无限时域MDP中使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 个样本,以高概率实现 ϵ-最优策略,通过对偶间隙分析和鞅集中不等式建立了紧致的样本复杂度界限。

ABSTRACT

We study the online estimation of the optimal policy of a Markov decision process (MDP). We propose a class of Stochastic Primal-Dual (SPD) methods which exploit the inherent minimax duality of Bellman equations. The SPD methods update a few coordinates of the value and policy estimates as a new state transition is observed. These methods use small storage and has low computational complexity per iteration. The SPD methods find an absolute-$ε$-optimal policy, with high probability, using $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2σ^2 }{(1-γ)^6ε^2} ight)$ iterations/samples for the infinite-horizon discounted-reward MDP and $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2H^6σ^2 }{ε^2} ight)$ for the finite-horizon MDP.

研究动机与目标

  • 开发一种无需完整掌握转移概率或奖励分布知识的模型无关、可扩展的强化学习算法,并在理论上保证样本复杂度。
  • 通过将贝尔曼方程形式化为随机鞍点问题,利用其内在的原始-对偶结构。
  • 设计一种每轮迭代计算与存储成本低的随机原始-对偶算法,适用于从流式状态转移中进行在线学习。
  • 利用对偶间隙上的概率集中技术,为有限时域和无限时域MDP建立紧致的样本复杂度界限。
  • 证明该方法在多项式时间复杂度内,以高概率实现 ϵ-最优策略。

提出的方法

  • 将贝尔曼方程形式化为随机鞍点问题,其中最优值函数和策略分别为原始解与对偶解。
  • 提出 SPD-dMDP 和 SPD-fMDP 算法,通过单个状态转移的噪声部分梯度,实时更新值函数和策略估计。
  • 使用对特殊构造集合的替代投影,以保持可行性并确保在随机设置下的收敛性。
  • 在有限时域情况下采用时变学习率策略,对早期时间步采用更激进的更新,以平衡误差传播。
  • 分析对偶间隙序列,并对构造的鞅应用伯恩斯坦不等式,以界定期望收敛速率。
  • 将对偶间隙用作策略次优性的代理指标,建立间隙收敛与所学策略近似误差之间的联系。

实验结果

研究问题

  • RQ1能否设计一种随机原始-对偶方法,使其在模型无关强化学习中实现最优样本复杂度?
  • RQ2如何利用贝尔曼方程中的内在对偶性,设计低存储、低复杂度的在线学习算法?
  • RQ3在使用随机、增量更新的方法中,实现有限时域和折扣无限时域MDP中 ϵ-最优策略的最紧样本复杂度界限是什么?
  • RQ4在有限时域MDP中,如何在时间步上自适应调整学习率,以确保收敛性和最优样本效率?
  • RQ5对偶间隙能否作为可靠的收敛指标,直接界定所学策略的次优性?

主要发现

  • SPD-dMDP 算法在无限时域折扣MDP中,以至少 1−δ 的概率,使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
  • SPD-fMDP 算法在具有 H 个阶段的有限时域MDP中,以至少 1−δ 的概率,使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
  • 样本复杂度界限是紧致的,且在问题参数 |S|、|A|、H、σ 和 1/ϵ 上为多项式关系,对 1/δ 的依赖为对数关系。
  • 对偶间隙序列的收敛速率为 O(1/√T),在给定条件下意味着期望策略次优性以 O(1/√T) 的速率衰减。
  • 分析表明,对偶间隙上界控制了 ∞-范数下的策略次优性,且该间隙通过 H² 因子与值函数误差相关联。
  • 该方法实现了次线性空间复杂度:在折扣MDP中为 O(|S||A|),在有限时域MDP中为 O(|S||A|H),使其可扩展至大规模状态-动作空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。