[论文解读] Deep Q-learning from Demonstrations
DQfD 通过演示进行预训练,结合 TD 与监督损失,然后在演示数据与自生成数据上使用优先回放进行学习,超过多项基线并在多款 Atari 游戏上取得最先进的结果。
Deep reinforcement learning (RL) has achieved several high profile successes in difficult decision-making problems. However, these algorithms typically require a huge amount of data before they reach reasonable performance. In fact, their performance during learning can be extremely poor. This may be acceptable for a simulator, but it severely limits the applicability of deep RL to many real-world tasks, where the agent must learn in the real environment. In this paper we study a setting where the agent may access data from previous control of the system. We present an algorithm, Deep Q-learning from Demonstrations (DQfD), that leverages small sets of demonstration data to massively accelerate the learning process even from relatively small amounts of demonstration data and is able to automatically assess the necessary ratio of demonstration data while learning thanks to a prioritized replay mechanism. DQfD works by combining temporal difference updates with supervised classification of the demonstrator's actions. We show that DQfD has better initial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN) as it starts with better scores on the first million steps on 41 of 42 games and on average it takes PDD DQN 83 million steps to catch up to DQfD's performance. DQfD learns to out-perform the best demonstration given in 14 of 42 games. In addition, DQfD leverages human demonstrations to achieve state-of-the-art results for 11 games. Finally, we show that DQfD performs better than three related algorithms for incorporating demonstration data into DQN.
研究动机与目标
- 在真实世界强化学习设置中推动学习,且不存在准确的仿真器但存在演示数据。
- 在演示数据上对深度Q网络进行预训练,以学习满足贝尔曼方程的价值函数。
- 通过以优先回放方式继续训练,混合演示数据和自生成数据来实现在线学习。
- 证明整合演示能够带来更快的初始性能,并在若干 Atari 游戏上达到最先进的结果。
提出的方法
- 在演示数据上进行预训练,使用四种损失:1步双Q学习、n步双Q学习、一个大间隔的监督分类损失以及L2正则化。
- 用大间隔损失将示范者的动作定锚,使其他动作相比示范者的动作至少降低一个间隔。
- 引入n步TD损失以从演示轨迹传播价值。
- 使用带演示转换的优先经验回放,对演示数据给予优先级奖励,以在演示数据与智能体数据之间保持平衡。
- 在线学习期间,永久在回放缓冲区中保留演示数据,并从演示和自生成数据的混合数据中抽样。
实验结果
研究问题
- RQ1一个深度Q网络是否可以有效地从演示中进行预训练,然后再从自身经历继续学习?
- RQ2在存在演示数据时,将TD更新与监督 imitate 损失结合是否在早期性能和整体学习中带来改进?
- RQ3在线学习中应如何平衡演示数据与自生成数据,以最大化性能?
- RQ4相比于没有演示的基线,演示增强的深度Q网络在困难探索的 Atari 游戏中是否表现更优?
主要发现
| Game | DQfD | Prev. Best | Algorithm |
|---|---|---|---|
| Alien | 4745.9 | 4461.4 | Dueling DQN ( ?) |
| Asteroids | 3796.4 | 2869.3 | PopArt ( ?) |
| Atlantis | 920213.9 | 395762.0 | Prior. Dueling DQN ( ?) |
| Battle Zone | 41971.7 | 37150.0 | Dueling DQN ( ?) |
| Gravitar | 1693.2 | 859.1 | DQN+PixelCNN ( ?) |
| Hero | 105929.4 | 23037.7 | Prioritized DQN ( ?) |
| Montezuma Revenge | 4739.6 | 3705.5 | DQN+CTS ( ?) |
| Pitfall | 50.8 | 0.0 | Prior. Dueling DQN ( ?) |
| Private Eye | 40908.2 | 15806.5 | DQN+PixelCNN ( ?) |
| Q-Bert | 21792.7 | 19220.3 | Dueling DQN ( ?) |
| Up N Down | 82555.0 | 44939.6 | Dueling DQN ( ?) |
- DQfD 在前一百万步中的41个游戏的初始表现优于 Prioritized Dueling Double DQN (PDD DQN)。
- 平均而言,PDD DQN 需要大约8300万步才能赶上 DQfD 的表现。
- DQfD 学会在42个游戏中的14个里超越最佳演示,并在11个游戏中达到最先进的结果。
- DQfD 在多项指标上优于三种相关的演示增强算法和纯模仿学习。
- 即使演示集相对较小(每个游戏从5,574到75,472转移),DQfD 仍提供强劲增益。
- 在预训练阶段使用全部四种损失的组合对于稳定性和性能至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。