[论文解读] Stein Variational Policy Gradient
SVPG 将策略梯度与 Stein 变分梯度下降相结合,以维持一组多样化的高性能策略,在连续控制任务中相对于标准的 REINFORCE 和 A2C 提高数据效率和鲁棒性。
Policy gradient methods have been successfully applied to many complex reinforcement learning problems. However, policy gradient methods suffer from high variance, slow convergence, and inefficient exploration. In this work, we introduce a maximum entropy policy optimization framework which explicitly encourages parameter exploration, and show that this framework can be reduced to a Bayesian inference problem. We then propose a novel Stein variational policy gradient method (SVPG) which combines existing policy gradient methods and a repulsive functional to generate a set of diverse but well-behaved policies. SVPG is robust to initialization and can easily be implemented in a parallel manner. On continuous control problems, we find that implementing SVPG on top of REINFORCE and advantage actor-critic algorithms improves both average return and data efficiency.
研究动机与目标
- 动机在强化学习中需要更鲁棒、数据效率更高的策略优化。
- 提出一个对策略参数的最大熵框架以促进探索。
- 引入 SVPG,以联合利用梯度信息并排斥粒子以实现多样性。
- 在连续控制基准任务上展示 SVPG 的性能和鲁棒性提升。
提出的方法
- 将策略参数建模为分布 q(θ),并设先验 q0(θ),以最大化 E_q[J(θ)] + α H(q)。
- 推导后验形式 q(θ) ∝ exp(J(θ)/α) q0(θ),并将 α 解释为温度控制。
- 应用 Stein 变分梯度下降(SVGD)迭代地传送一组粒子 θi,以逼近 q(θ)。
- 使用将 log q 的梯度与排斥核项相结合的 SVGD 更新以维持多样性:φ*(θ) = E_θ~ρ[∇log q(θ) k(θ,·) + ∇_θ k(θ,·)].
- 通过在 SVGD 更新中用 ∇θ[(1/α)J(θ) + log q0(θ)] 替代 ∇log q 来实例化 SVPG,得到耦合的策略梯度和排斥项。
- 提供 α 的退火以平衡探索和开发。
- 在 REINFORCE 和 A2C 之上展示 SVPG,以在连续控制任务中提高数据效率和鲁棒性。
实验结果
研究问题
- RQ1一个基于分布且带熵正则化的策略参数视角是否能改善探索和学习稳定性?
- RQ2基于 SVGD 的策略参数优化是否能产生相较于单策略更新更具多样性且高性能的策略?
- RQ3将 SVPG 与标准策略梯度方法(REINFORCE、A2C)结合在连续控制基准上时表现如何?
- RQ4温度参数 α 对 SVPG 的探索-开发权衡有何影响?
主要发现
| 任务 | A2C 联合最佳回报 | A2C 联合回合数 | A2C 独立最佳回报 | A2C 独立回合数 | SVPG 最佳回报 | SVPG 回合数 |
|---|---|---|---|---|---|---|
| Cartpole Swing Up | 308.71 | 189 | 419.62 | 474 | 436.84 | 171 |
| Double Pendulum | -938.73 | 46 | -256.64 | 638 | -244.85 | 199 |
- 在连续控制任务中,将 SVPG 加在 REINFORCE 和 A2C 之上可提升平均回报和数据效率。
- SVPG 在不同初始化下表现稳健,方差小于 Joint 更新,与 Independent 更新相比展现出有竞争力的多样性。
- SVPG 发现多种强策略,具有多样的状态访问模式,表明参数空间探索有效。
- 中等 α 能平衡探索与开发,带来比过高或过低温度更好的性能。
- SVPG 的并行、非参数粒子更新使其能够与现有策略优化框架进行可扩展集成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。