QUICK REVIEW

[论文解读] Self-Imitation Learning

Junhyuk Oh, Yijie Guo|arXiv (Cornell University)|Jun 14, 2018

Innovative Teaching and Learning Methods被引用 69

一句话总结

Self-Imitation Learning (SIL) 是一种离策略的 actor-critic 方法，通过模仿智能体过去的正确决策来驱动深度探索，从而在具有挑战性探索的 Atari 游戏和 MuJoCo 任务上提升性能。

ABSTRACT

This paper proposes Self-Imitation Learning (SIL), a simple off-policy actor-critic algorithm that learns to reproduce the agent's past good decisions. This algorithm is designed to verify our hypothesis that exploiting past good experiences can indirectly drive deep exploration. Our empirical results show that SIL significantly improves advantage actor-critic (A2C) on several hard exploration Atari games and is competitive to the state-of-the-art count-based exploration methods. We also show that SIL improves proximal policy optimization (PPO) on MuJoCo tasks.

研究动机与目标

研究利用过去的良好经验是否可以提升强化学习的性能。
为 actor-critic 体系建立一个简单的离策略目标，利用过去的成功经验。
在理论上通过一个下界软 Q-learning 框架为 SIL 提供理论依据。
在具有挑战性探索的 Atari 游戏和连续控制基准上对 SIL 进行实证评估。
评估 SIL 是否对现有探索方法及如 PPO 的其他算法具有互补性。

提出的方法

将带有累计奖励的过去剧集轨迹存储到回放缓冲区中。
使用一个离策略的 SIL 目标，当 R > V_theta(s) 时进行更新，包含两个损失分量：L_sil_policy 和 L_sil_value。
从回放缓冲区进行带优先级的重放，使用 (R-V_theta(s))_+ 作为优先级。
将 SIL 与 on-policy 的 A2C 更新结合，形成 A2C+SIL。
将 SIL 扩展到 PPO，并在 Atari 与 MuJoCo 任务上进行测试。
提供理论依据，将 SIL 与在熵正则化强化学习中的下界软 Q 学习联系起来。

实验结果

研究问题

RQ1自我模仿学习是否能提升 RL 智能体的探索性和整体性能？
RQ2SIL 能否在困难探索任务中补充基于计数的探索方法？
RQ3SIL 是否能广泛应用于离散与连续控制，并且与 PPO 兼容？
RQ4在何种条件下开发过去经验的利用会帮助或阻碍学习？

主要发现

Agent	Median	> Human
A2C+SIL	138.7%	29
A3C+	46.8%	18
Reactor+	N/A	N/A

SIL 在若干具有挑战性探索的 Atari 游戏上提升了 A2C，并且在与基于计数的探索方法的比较中具有竞争力。
SIL 也提升了 MuJoCo 连续控制任务中的 PPO。
在49个 Atari 游戏中，A2C+SIL 在中位数人类归一化分数和大多数困难探索游戏中优于 A2C。
SIL 与探索方法互补，并通过利用罕见的正向经验推动深度探索。
A2C+SIL 可以在多项困难探索任务中超过最先进的基于计数的方法。
在某些情况下，早期的 exploitation 可能阻碍性能，表明需要对 SIL 的使用进行自适应调整。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。