[论文解读] Goal-Conditioned Imitation Learning
本论文提出 goalGAIL,一种以目标为条件的对抗模仿学习方法,具备后见重新标注以加速机器人学习目标的能力,包括对状态-only 演示的支持,以及用于数据增强的专家重新标注。
Designing rewards for Reinforcement Learning (RL) is challenging because it needs to convey the desired task, be efficient to optimize, and be easy to compute. The latter is particularly problematic when applying RL to robotics, where detecting whether the desired configuration is reached might require considerable supervision and instrumentation. Furthermore, we are often interested in being able to reach a wide range of configurations, hence setting up a different reward every time might be unpractical. Methods like Hindsight Experience Replay (HER) have recently shown promise to learn policies able to reach many goals, without the need of a reward. Unfortunately, without tricks like resetting to points along the trajectory, HER might require many samples to discover how to reach certain areas of the state-space. In this work we investigate different approaches to incorporate demonstrations to drastically speed up the convergence to a policy able to reach any goal, also surpassing the performance of an agent trained with other Imitation Learning algorithms. Furthermore, we show our method can also be used when the available expert trajectories do not contain the actions, which can leverage kinesthetic or third person demonstration. The code is available at https://sites.google.com/view/goalconditioned-il/.
研究动机与目标
- 动机:现实世界强化学习中奖励设计的困难,以及对无奖励、能够到达目标的策略的需求。
- 开发一个能高效到达任一观测到的目标的目标条件模仿学习框架。
- 利用演示来加速收敛并提升超越演示者的泛化能力。
- 引入 goalGAIL,一种基于 GAIL 的算法,兼容离策略训练和后见重标注。
- 扩展功能以处理状态-仅、体感演示以及次优专家演示。
提出的方法
- 在判别器上对(a, s, g)进行条件化,使代理产生朝向目标的转移时获得奖励。
- 使用 GAIL 目标通过离策略算法(DDPG)训练策略,综合奖励为 r = indicator(s'==g) 与一个逐步退火的 log Dψ(a,s,g) 项。
- 引入专家重新标注:用未来目标 s(t+k) 对专家转移进行重新标注,以增加来自少量演示的监督信号。
- 提出 goalGAIL,将 GAIL 与后见经验回放(HER)结合,以使从目标条件任务中学习成为可能。
- 通过在判别器中用下一个状态替换动作,允许状态-仅演示,从而能够从体感或第三人称演示中学习。
- 提供一种新颖的专家轨迹重新标注方案,以在演示稀缺时增加数据。
实验结果
研究问题
- RQ1goalGAIL 能否在无需显式奖励监督的情况下加速目标条件学习并超越示范者?
- RQ2专家重新标注是否提高数据效率和跨目标条件任务的最终表现?
- RQ3goalGAIL 是否对次优专家具有鲁棒性并能够使用状态-仅演示?
- RQ4状态-仅演示的表现与完整状态-动作演示在指导目标条件策略方面有何差异?
主要发现
- goalGAIL 在四个连续 MuJoCo 任务中,持续比 HER 收敛更快,并且在最终性能上胜过朴素的目标条件 GAIL。
- 专家重新标注在所有环境中显著提升了 BC、BC+HER 和 goalGAIL 的最终性能。
- 基于 GAIL 的方法对次优专家表现出鲁棒性,在嘈杂演示环境中表现优于纯 BC。
- 状态-仅演示在大多数任务中甚至优于 BC+HER,甚至优于完整动作的 GAIL,显示了在可用监督方面的灵活性。
- goalGAIL 通过利用演示来超越基线,同时仍受益于后见重新标注和离策略学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。