Skip to main content
QUICK REVIEW

[论文解读] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction

Pan Xu, Felicia Gao|arXiv (Cornell University)|Sep 18, 2019
Reinforcement Learning in Robotics参考文献 65被引用 34
一句话总结

该论文提出 SRVR-PG,一种随机递归方差降低策略梯度方法,在达到 ε-近似驻点所需样本量为 O(1/ε^{3/2}),此外还有用于参数空间探索的 SRVR-PG-PE 变体,在经典控制任务上得到验证。

ABSTRACT

Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\| abla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.

研究动机与目标

  • 动机:降低非凸性能函数下策略梯度方法的样本复杂度。
  • 提出 SRVR-PG,通过递归方差降低实现更高的样本效率。
  • 开发变体 SRVR-PG-PE,添加基于参数的探索。
  • 提供收敛性与样本复杂度的理论保证。
  • 在经典强化学习控制任务上展示经验表现。

提出的方法

  • 提出一个带有 S 个时期和外部快照梯度的随机递归方差降低策略梯度(SRVR-PG)算法。
  • 使用一个递归的半随机梯度估计量 v_{t+1},其由当前轨迹梯度项和按步骤赋予重要性权重的快照项(omega)组成,以及递归关系 v_{t+1} = v_t + (1/B) ∑_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})]。
  • 在从当前策略采样但用快照策略估计时,应用重要性权重以使分布对齐,确保 E[g_ω(τ|θ_{t-1})] 与 E[g(τ|θ_{t-1})] 相匹配。
  • 通过投影梯度上升更新 θ:θ_{t+1} = P_Θ(θ_t + η v_t),其中 P_Θ 是投影到凸约束集合 Θ。
  • 在对策略梯度/海森矩阵有界、梯度方差有界、重要性权重方差有界等假设下给出收敛性分析。
  • 并证明在合适的 η、m、N、B 取值下,SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 E[||G_η(θ_out)||^2] ≤ ε。

实验结果

研究问题

  • RQ1SRVR-PG 能否在非凸性能函数的策略梯度方法中降低样本复杂度,相较于现有的方差减少方法?
  • RQ2逐步重要性权重与递归机制如何影响收敛性保证与样本复杂度?
  • RQ3带参数空间探索的 SRVR-PG-PE 变体是否在不增加轨迹复杂度的前提下提升性能?
  • RQ4对于高斯策略,理论保证在 horizon 与衰减因子依赖方面有哪些?

主要发现

算法复杂度
REINFORCE (Williams, 1992)O(1/ε^{2})
PGT (Sutton et al., 2000)O(1/ε^{2})
GPOMDP (Baxter & Bartlett, 2001)O(1/ε^{2})
SVRPG (Papini et al., 2018)O(1/ε^{2})
SVRPG (Xu et al., 2019)O(1/ε^{5/3})
SRVR-PG (This paper)O(1/ε^{3/2})
  • SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 ε-近似驻点,相比先前的 SVRPG 的 O(1/ε^{5/3}) 提升了约 O(1/ε^{1/6}) 的因子。
  • 分析给出了避免某些先前结果中 O(1/B) 项的迭代复杂度,并使小批量大小与 horizon H 无关。
  • 对于高斯策略,该方法在具有显式依赖于 (1−γ) 和 H 的情况下实现 O(1/ε^{3/2}) 的样本复杂度,且与某些早期工作中的 horizon 处理不同。
  • SRVR-PG-PE 结合基于参数的探索,在不增加样本复杂度的前提下,在控制任务上可以获得更好的实践性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。