Skip to main content
QUICK REVIEW

[论文解读] Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

Matthias Plappert, Marcin Andrychowicz|arXiv (Cornell University)|Feb 26, 2018
Reinforcement Learning in Robotics参考文献 17被引用 196
一句话总结

本文在多目标强化学习框架下,介绍了一组具有稀疏奖励的挑战性连续控制机器人任务,并提出了改进强化学习算法,特别是基于 HER 的方法的具体研究思路。

ABSTRACT

The purpose of this technical report is two-fold. First of all, it introduces a suite of challenging continuous control tasks (integrated with OpenAI Gym) based on currently existing robotics hardware. The tasks include pushing, sliding and pick & place with a Fetch robotic arm as well as in-hand object manipulation with a Shadow Dexterous Hand. All tasks have sparse binary rewards and follow a Multi-Goal Reinforcement Learning (RL) framework in which an agent is told what to do using an additional input. The second part of the paper presents a set of concrete research ideas for improving RL algorithms, most of which are related to Multi-Goal RL and Hindsight Experience Replay.

研究动机与目标

  • 将基于 Fetch 与 Shadow Dexterous Hand 硬件并基于 OpenAI Gym 的一组具有挑战性的连续控制任务引入并发布。
  • 采用多目标 RL 框架,其中目标作为额外输入提供,奖励是稀疏且二进制的。
  • 在新环境上评估基线 RL 算法(带有和不带 HER 的 DDPG)以对比性能。
  • 提出具体的研究方向以推进多目标 RL 和 HER(Hindsight Experience Replay)。

提出的方法

  • 定义并发布一套带有稀疏二进制奖励与多目标输入的 Fetch 与 Shadow Hand 环境。
  • 用基于 GoalEnv 的接口扩展 OpenAI Gym,包含 observation、desired_goal 和 achieved_goal 字段。
  • 使用 HER 来增强经验回放,并在稀疏奖励和密集奖励设置下进行评估。
  • 在所有环境及其变体中对比基于 DDPG 的方法(有无 HER),报告中位数测试成功率和四分位数区间。
  • 提供超参数细节和可重复的参考实现,整合到 OpenAI Baselines 中以实现可重复性。
  • research_questions_header
  • research_questions_anyway
  • Not used

实验结果

研究问题

  • RQ1如何为 hindsight experience replay 生成自动目标以提高样本效率?
  • RQ2在高度随机的环境中,HER 是否可以做到无偏,重要性采样又如何帮助?
  • RQ3将 HER 与分层或多步方法结合以提高学习速度和稳定性有哪些有效途径?
  • RQ4如何将 HER 与有策略学习算法(如 PPO)结合,并与最近的 RL 进展(如优先回放、分布式 RL)相结合?
  • RQ5在连续控制任务中,当动作频率增加时,哪些策略可以提升信息传播和样本效率?

主要发现

  • 带有 HER 的 DDPG 在大多数 Fetch 与 Hand 环境的配置中显著优于其他配置,尤其是在稀疏奖励条件下。
  • DDPG+HER 在稀疏奖励下通常能学得较好,而未使用 HER 的 vanilla DDPG 往往表现不佳。
  • FetchReach 对所有配置都较易解决,作为新方法的基本可驗性检查。
  • HandManipulatePen 等手部相关任务仍然特别具有挑战性,HER 并未完全解决所有变体。
  • 密集奖励并不总是比使用 HER 时表现更好,稀疏奖励有利于更简单的评论家学习和更好的策略。
  • 本文提供了完整的基准和超参数设置,便于在 OpenAI Baselines 中的再现性和与现有基线的比较。
  • 环境与多目标接口通过 GoalEnv 兼容结构扩展了 OpenAI Gym,并采用基于字典的观测空间,包括 compute_reward 函数,以实现灵活的目标替换。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。