QUICK REVIEW

[论文解读] Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

Matthias Plappert, Marcin Andrychowicz|arXiv (Cornell University)|Feb 26, 2018

Reinforcement Learning in Robotics参考文献 17被引用 196

一句话总结

本文在多目标强化学习框架下，介绍了一组具有稀疏奖励的挑战性连续控制机器人任务，并提出了改进强化学习算法，特别是基于 HER 的方法的具体研究思路。

ABSTRACT

The purpose of this technical report is two-fold. First of all, it introduces a suite of challenging continuous control tasks (integrated with OpenAI Gym) based on currently existing robotics hardware. The tasks include pushing, sliding and pick & place with a Fetch robotic arm as well as in-hand object manipulation with a Shadow Dexterous Hand. All tasks have sparse binary rewards and follow a Multi-Goal Reinforcement Learning (RL) framework in which an agent is told what to do using an additional input. The second part of the paper presents a set of concrete research ideas for improving RL algorithms, most of which are related to Multi-Goal RL and Hindsight Experience Replay.

研究动机与目标

将基于 Fetch 与 Shadow Dexterous Hand 硬件并基于 OpenAI Gym 的一组具有挑战性的连续控制任务引入并发布。
采用多目标 RL 框架，其中目标作为额外输入提供，奖励是稀疏且二进制的。
在新环境上评估基线 RL 算法（带有和不带 HER 的 DDPG）以对比性能。
提出具体的研究方向以推进多目标 RL 和 HER（Hindsight Experience Replay）。

提出的方法

定义并发布一套带有稀疏二进制奖励与多目标输入的 Fetch 与 Shadow Hand 环境。
用基于 GoalEnv 的接口扩展 OpenAI Gym，包含 observation、desired_goal 和 achieved_goal 字段。
使用 HER 来增强经验回放，并在稀疏奖励和密集奖励设置下进行评估。
在所有环境及其变体中对比基于 DDPG 的方法（有无 HER），报告中位数测试成功率和四分位数区间。
提供超参数细节和可重复的参考实现，整合到 OpenAI Baselines 中以实现可重复性。
research_questions_header
research_questions_anyway
Not used

实验结果

研究问题

RQ1如何为 hindsight experience replay 生成自动目标以提高样本效率？
RQ2在高度随机的环境中，HER 是否可以做到无偏，重要性采样又如何帮助？
RQ3将 HER 与分层或多步方法结合以提高学习速度和稳定性有哪些有效途径？
RQ4如何将 HER 与有策略学习算法（如 PPO）结合，并与最近的 RL 进展（如优先回放、分布式 RL）相结合？
RQ5在连续控制任务中，当动作频率增加时，哪些策略可以提升信息传播和样本效率？

主要发现

带有 HER 的 DDPG 在大多数 Fetch 与 Hand 环境的配置中显著优于其他配置，尤其是在稀疏奖励条件下。
DDPG+HER 在稀疏奖励下通常能学得较好，而未使用 HER 的 vanilla DDPG 往往表现不佳。
FetchReach 对所有配置都较易解决，作为新方法的基本可驗性检查。
HandManipulatePen 等手部相关任务仍然特别具有挑战性，HER 并未完全解决所有变体。
密集奖励并不总是比使用 HER 时表现更好，稀疏奖励有利于更简单的评论家学习和更好的策略。
本文提供了完整的基准和超参数设置，便于在 OpenAI Baselines 中的再现性和与现有基线的比较。
环境与多目标接口通过 GoalEnv 兼容结构扩展了 OpenAI Gym，并采用基于字典的观测空间，包括 compute_reward 函数，以实现灵活的目标替换。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。