[论文解读] Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic
Q-Prop 将有策略蒙特卡洛策略梯度与一个作为控制变量的离策略 critic 结合起来,以提高在连续控制任务中的样本效率和稳定性,优于 TRPO 和 DDPG。
Model-free deep reinforcement learning (RL) methods have been successful in a wide variety of simulated domains. However, a major obstacle facing deep RL in the real world is their high sample complexity. Batch policy gradient methods offer stable learning, but at the cost of high variance, which often requires large batches. TD-style methods, such as off-policy actor-critic and Q-learning, are more sample-efficient but biased, and often require costly hyperparameter sweeps to stabilize. In this work, we aim to develop methods that combine the stability of policy gradients with the efficiency of off-policy RL. We present Q-Prop, a policy gradient method that uses a Taylor expansion of the off-policy critic as a control variate. Q-Prop is both sample efficient and stable, and effectively combines the benefits of on-policy and off-policy methods. We analyze the connection between Q-Prop and existing model-free algorithms, and use control variate theory to derive two variants of Q-Prop with conservative and aggressive adaptation. We show that conservative Q-Prop provides substantial gains in sample efficiency over trust region policy optimization (TRPO) with generalized advantage estimation (GAE), and improves stability over deep deterministic policy gradient (DDPG), the state-of-the-art on-policy and off-policy methods, on OpenAI Gym's MuJoCo continuous control environments.
研究动机与目标
- 动机:降低深度强化学习中的样本复杂性并提升稳定性。
- 开发一种利用离策略 critics 而不引入偏差的策略梯度方法。
- 将有策略蒙特卡洛梯度与离策略 critic 的更新结合起来,以提高数据效率。
提出的方法
- 将 Q-Prop 推导为一种策略梯度估计量,使用离策略 critic 的一阶泰勒展开作为控制变量。
- 以 Qw 作为 critic,μθ(st) 作为期望动作,形成通过 critic 的解析项加上残余蒙特卡洛项的梯度。
- 用优势来表示梯度,并展示离策略数据如何在训练 critic 的同时使 actor 保持 on-policy。
- 引入自适应控制变量权重 η(st) 以降低方差,包括完全自适应、保守和进取变体。
- 证明 Q-Prop 可以与 TRPO、GAE、DDPG 和 Retrace(λ) 结合,并且可以在现有策略梯度框架之上实现。
实验结果
研究问题
- RQ1离策略 critic 是否可以作为控制变量来降低策略梯度估计的方差且不引入偏差?
- RQ2与 TRPO-GAE 和 DDPG 在连续控制任务中的样本效率和稳定性相比,Q-Prop 的表现如何?
- RQ3自适应控制变量权重对方差和学习性能的影响是什么?
- RQ4Q-Prop 能否与现有的有策略和离策略强化学习技术整合以提升实际性能?
主要发现
| 域 | 阈值 | 最大回报(TR-c-Q-Prop) | 回合数(TR-c-Q-Prop) | 最大回报(TRPO) | 回合数(TRPO) | 最大回报(DDPG) | 回合数(DDPG) |
|---|---|---|---|---|---|---|---|
| Ant | 3500 | 3534 | 4975 | 4239 | 13825 | 957 | N/A |
| HalfCheetah | 4700 | 4811 | 20785 | 4734 | 26370 | 7490 | 600 |
| Hopper | 2000 | 2957 | 5945 | 2486 | 5715 | 2604 | 965 |
| Humanoid | 2500 | >3492 | 14750 | 918 | >30000 | 552 | N/A |
| Reacher | -7 | -6.0 | 2060 | -6.7 | 2840 | -6.6 | 1800 |
| Swimmer | 90 | 103 | 2045 | 110 | 3025 | 150 | 500 |
| Walker | 3000 | 4030 | 3685 | 3567 | 18875 | 3626 | 2125 |
- Q-Prop 在连续控制任务中相对于 TRPO-GAE 在样本效率上带来显著提升。
- 保守的 Q-Prop 提供更好的稳定性,在多个域中通常超越像 TRPO 和 DDPG 这样的基线。
- 自适应 Q-Prop 变体(完全自适应、保守、进取)可以降低梯度方差并维持或提升学习性能。
- 在 Humanoid-v1 等具有挑战性的域中,Q-Prop 相对于 TRPO 的样本效率有显著提升,而 DDPG 有时无法找到良好解。
- Q-Prop 能在小批量数据下有效学习,其稳定性使其更适合现实世界任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。