QUICK REVIEW

[论文解读] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction

Pan Xu, Felicia Gao|arXiv (Cornell University)|Sep 18, 2019

Reinforcement Learning in Robotics参考文献 65被引用 34

一句话总结

该论文提出 SRVR-PG，一种随机递归方差降低策略梯度方法，在达到 ε-近似驻点所需样本量为 O(1/ε^{3/2})，此外还有用于参数空间探索的 SRVR-PG-PE 变体，在经典控制任务上得到验证。

ABSTRACT

Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\| abla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.

研究动机与目标

动机：降低非凸性能函数下策略梯度方法的样本复杂度。
提出 SRVR-PG，通过递归方差降低实现更高的样本效率。
开发变体 SRVR-PG-PE，添加基于参数的探索。
提供收敛性与样本复杂度的理论保证。
在经典强化学习控制任务上展示经验表现。

提出的方法

提出一个带有 S 个时期和外部快照梯度的随机递归方差降低策略梯度（SRVR-PG）算法。
使用一个递归的半随机梯度估计量 v_{t+1}，其由当前轨迹梯度项和按步骤赋予重要性权重的快照项（omega）组成，以及递归关系 v_{t+1} = v_t + (1/B) ∑_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})]。
在从当前策略采样但用快照策略估计时，应用重要性权重以使分布对齐，确保 E[g_ω(τ|θ_{t-1})] 与 E[g(τ|θ_{t-1})] 相匹配。
通过投影梯度上升更新 θ：θ_{t+1} = P_Θ(θ_t + η v_t)，其中 P_Θ 是投影到凸约束集合 Θ。
在对策略梯度/海森矩阵有界、梯度方差有界、重要性权重方差有界等假设下给出收敛性分析。
并证明在合适的 η、m、N、B 取值下，SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 E[||G_η(θ_out)||^2] ≤ ε。

实验结果

研究问题

RQ1SRVR-PG 能否在非凸性能函数的策略梯度方法中降低样本复杂度，相较于现有的方差减少方法？
RQ2逐步重要性权重与递归机制如何影响收敛性保证与样本复杂度？
RQ3带参数空间探索的 SRVR-PG-PE 变体是否在不增加轨迹复杂度的前提下提升性能？
RQ4对于高斯策略，理论保证在 horizon 与衰减因子依赖方面有哪些？

主要发现

算法	复杂度
REINFORCE (Williams, 1992)	O(1/ε^{2})
PGT (Sutton et al., 2000)	O(1/ε^{2})
GPOMDP (Baxter & Bartlett, 2001)	O(1/ε^{2})
SVRPG (Papini et al., 2018)	O(1/ε^{2})
SVRPG (Xu et al., 2019)	O(1/ε^{5/3})
SRVR-PG (This paper)	O(1/ε^{3/2})

SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 ε-近似驻点，相比先前的 SVRPG 的 O(1/ε^{5/3}) 提升了约 O(1/ε^{1/6}) 的因子。
分析给出了避免某些先前结果中 O(1/B) 项的迭代复杂度，并使小批量大小与 horizon H 无关。
对于高斯策略，该方法在具有显式依赖于 (1−γ) 和 H 的情况下实现 O(1/ε^{3/2}) 的样本复杂度，且与某些早期工作中的 horizon 处理不同。
SRVR-PG-PE 结合基于参数的探索，在不增加样本复杂度的前提下，在控制任务上可以获得更好的实践性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。