[论文解读] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction
该论文提出 SRVR-PG,一种随机递归方差降低策略梯度方法,在达到 ε-近似驻点所需样本量为 O(1/ε^{3/2}),此外还有用于参数空间探索的 SRVR-PG-PE 变体,在经典控制任务上得到验证。
Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\| abla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.
研究动机与目标
- 动机:降低非凸性能函数下策略梯度方法的样本复杂度。
- 提出 SRVR-PG,通过递归方差降低实现更高的样本效率。
- 开发变体 SRVR-PG-PE,添加基于参数的探索。
- 提供收敛性与样本复杂度的理论保证。
- 在经典强化学习控制任务上展示经验表现。
提出的方法
- 提出一个带有 S 个时期和外部快照梯度的随机递归方差降低策略梯度(SRVR-PG)算法。
- 使用一个递归的半随机梯度估计量 v_{t+1},其由当前轨迹梯度项和按步骤赋予重要性权重的快照项(omega)组成,以及递归关系 v_{t+1} = v_t + (1/B) ∑_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})]。
- 在从当前策略采样但用快照策略估计时,应用重要性权重以使分布对齐,确保 E[g_ω(τ|θ_{t-1})] 与 E[g(τ|θ_{t-1})] 相匹配。
- 通过投影梯度上升更新 θ:θ_{t+1} = P_Θ(θ_t + η v_t),其中 P_Θ 是投影到凸约束集合 Θ。
- 在对策略梯度/海森矩阵有界、梯度方差有界、重要性权重方差有界等假设下给出收敛性分析。
- 并证明在合适的 η、m、N、B 取值下,SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 E[||G_η(θ_out)||^2] ≤ ε。
实验结果
研究问题
- RQ1SRVR-PG 能否在非凸性能函数的策略梯度方法中降低样本复杂度,相较于现有的方差减少方法?
- RQ2逐步重要性权重与递归机制如何影响收敛性保证与样本复杂度?
- RQ3带参数空间探索的 SRVR-PG-PE 变体是否在不增加轨迹复杂度的前提下提升性能?
- RQ4对于高斯策略,理论保证在 horizon 与衰减因子依赖方面有哪些?
主要发现
| 算法 | 复杂度 |
|---|---|
| REINFORCE (Williams, 1992) | O(1/ε^{2}) |
| PGT (Sutton et al., 2000) | O(1/ε^{2}) |
| GPOMDP (Baxter & Bartlett, 2001) | O(1/ε^{2}) |
| SVRPG (Papini et al., 2018) | O(1/ε^{2}) |
| SVRPG (Xu et al., 2019) | O(1/ε^{5/3}) |
| SRVR-PG (This paper) | O(1/ε^{3/2}) |
- SRVR-PG 在 O(1/ε^{3/2}) 条轨迹内达到 ε-近似驻点,相比先前的 SVRPG 的 O(1/ε^{5/3}) 提升了约 O(1/ε^{1/6}) 的因子。
- 分析给出了避免某些先前结果中 O(1/B) 项的迭代复杂度,并使小批量大小与 horizon H 无关。
- 对于高斯策略,该方法在具有显式依赖于 (1−γ) 和 H 的情况下实现 O(1/ε^{3/2}) 的样本复杂度,且与某些早期工作中的 horizon 处理不同。
- SRVR-PG-PE 结合基于参数的探索,在不增加样本复杂度的前提下,在控制任务上可以获得更好的实践性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。