[论文解读] GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms
GEP-PG 将 Goal Exploration Processes 与 Deep Deterministic Policy Gradient 结合,以 实现 探索 与 开发 的 解耦,从而 提高 样本效率、最终 性能 与 稳定性,在 CMC 和 Half-Cheetah 基准上表现出色。
In continuous action domains, standard deep reinforcement learning algorithms like DDPG suffer from inefficient exploration when facing sparse or deceptive reward problems. Conversely, evolutionary and developmental methods focusing on exploration like Novelty Search, Quality-Diversity or Goal Exploration Processes explore more robustly but are less efficient at fine-tuning policies using gradient descent. In this paper, we present the GEP-PG approach, taking the best of both worlds by sequentially combining a Goal Exploration Process and two variants of DDPG. We study the learning performance of these components and their combination on a low dimensional deceptive reward problem and on the larger Half-Cheetah benchmark. We show that DDPG fails on the former and that GEP-PG improves over the best DDPG variant in both environments. Supplementary videos and discussion can be found at http://frama.link/gep_pg, the code at http://github.com/flowersteam/geppg.
研究动机与目标
- 在 连续动作强化学习中,动机与 处理 探索挑战,尤其是在 稀疏或 欺骗性 奖励下。
- 提出 一个 两阶段 框架,先 通过 Goal Exploration Processes (GEP) 进行 探索,再通过 基于 回放缓冲区 的 DDPG 变体 进行 开发。
- 在 低维 基准(Continuous Mountain Car)和 高维 基准(Half-Cheetah)上 进行 实证 评估。
- 评估 对 最终 性能、样本效率 以及 学习 变异性 的 影响。
- 讨论 Gep-PG 框架 的 鲜性、局限性 与 潜在 的 扩展。
提出的方法
- 定义 两个 学习阶段:一个 探索阶段,使用 Goal Exploration Processes 生成 多样化 的 策略 库;
- 将 结果 的 (theta, o) 对 存储 在 内存中,随后 以 高斯 噪声 对 观测 结果 进行 抽样,以 生成 新 策略;
- 用 GEP 生成 的 样本 填充 DDPG 的 回放缓冲区,并 使用 动作扰动 或 参数扰动 的 DDPG 变体 进行 训练;
- 与 标准 DDPG 变体 进行 比较,分析 CMC 与 HC 上 的 性能、方差 与 样本效率;
- 采用 标准化 的 评估 方法,使用 多个 种子 与 自助法/统计检验 来 评估 显著性;
- 报告 在 训练 过程 中 最好 策略 的 绝对 性能 与 最后 100 次 评估 轮中的 性能。
实验结果
研究问题
- RQ1通过 GEP 将 探索 与 开发 解耦,是否 能 相较 于 含 探索噪声 的 标准 DDPG 在 连续动作 强化学习 中 提高 学习?
- RQ2GEP 与 Gep-PG 在 低维 的 欺骗性 奖励 问题(Continuous Mountain Car) 与 高维 基准(Half-Cheetah)上的 表现 如何?
- RQ3 策略 复杂度 与 回放缓冲区 内容 对 Gep-PG 的 表现 与 稳定性 有 何 影响?
- RQ4Gep-PG 在 各 基准 上 是否 比 DDPG 变体 更 容易 获得 较高 的 样本效率 且 方差 更 小?
- RQ5 将 将 发展性 探索 与 深度 RL 相结合 的 未来 方向 与 扩展 可能是?
主要发现
- GEP 单独 就 能 提供 具有 竞争力 的 探索,并且 在 CMC 基准 上 由于 欺骗性 梯度 问题 而 可能 超越 DDPG 变体。
- 在 Half-Cheetah 上,Gep-PG 在 最终 性能 与 方差 上 显著 超越 DDPG 变体,达到 当时 的 近似 最先进 的 结果。
- 带 动作 扰动 的 DDPG 在 欺骗性 或 稀疏 奖励 设置 下 可能 不如 参数 扰动 的 表现。
- 用 GEP 生成 的 样本 填充 DDPG 回放缓冲区 可以 提高 样本效率、最终 性能,并 降低 与 从 头 开始 训练 相比 的 变异性。
- GEP-PG 的 鲜稳 性 在 探索阶段 的 不同 Gep 回合数 范围 内 都 能 观察到,且 性能 提升 稳定。
- 缓冲区 中 更 大、更多样化 的 轨迹 集 与 Gep-PG 表现 与 泛化 性 能 呈 正相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。