[論文レビュー] Deep Q-learning from Demonstrations
DQfDはデモンストレーションをTDと教師あり損失の組み合わせで事前学習し、その後デモンストレーションデータと自己生成データの双方から優先リプレイを用いて学習する。これによりいくつかのベースラインを上回り、複数の Atari ゲームで最先端の結果を達成する。
Deep reinforcement learning (RL) has achieved several high profile successes in difficult decision-making problems. However, these algorithms typically require a huge amount of data before they reach reasonable performance. In fact, their performance during learning can be extremely poor. This may be acceptable for a simulator, but it severely limits the applicability of deep RL to many real-world tasks, where the agent must learn in the real environment. In this paper we study a setting where the agent may access data from previous control of the system. We present an algorithm, Deep Q-learning from Demonstrations (DQfD), that leverages small sets of demonstration data to massively accelerate the learning process even from relatively small amounts of demonstration data and is able to automatically assess the necessary ratio of demonstration data while learning thanks to a prioritized replay mechanism. DQfD works by combining temporal difference updates with supervised classification of the demonstrator's actions. We show that DQfD has better initial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN) as it starts with better scores on the first million steps on 41 of 42 games and on average it takes PDD DQN 83 million steps to catch up to DQfD's performance. DQfD learns to out-perform the best demonstration given in 14 of 42 games. In addition, DQfD leverages human demonstrations to achieve state-of-the-art results for 11 games. Finally, we show that DQfD performs better than three related algorithms for incorporating demonstration data into DQN.
研究の動機と目的
- 正確なシミュレータが利用できないがデモンストレーションデータが存在する現実世界のRL設定において、学習を促進する。
- デモンストレーションデータ上で深層Qネットワークを事前学習し、ベルマン方程式を満たす価値関数を学習させる。
- 優先再生を介してデモンストレーションデータと自己生成データの混合で継続的に訓練することによりオンライン学習を可能にする。
- デモンストレーションを組み込むことが初期性能の向上と複数の Atari ゲームでの最先端結果をもたらすことを示す。
提案手法
- デモンストレーションデータ上で、1ステップダブルQ学習、nステップダブルQ学習、大-marginの教師付き分類損失、L2正則化の4つの損失を用いて事前学習する。
- デモンストレーターの行動を大-margin損失で位置づけ、他の行動をデモンストレーターの行動よりマージン分だけ下げる。
- デモンストレーション軌跡から価値を伝搬させるためにn-step TD損失を取り入れる。
- デモンストレーション遷移に優先度ボーナスを与える優先度付き経験リプレイを用い、デモとエージェントデータのバランスを取る。
- オンライン学習中、リプレイバッファにデモデータを常に保持し、デモと自己生成データの混合からサンプルする。
実験結果
リサーチクエスチョン
- RQ1深層Qネットワークはデモンストレーションから効果的に事前学習し、その後自らの経験から学習を継続できるか。
- RQ2TD更新と教師あり模倣損失を組み合わせることは、デモンストレーションが利用可能な場合の初期性能と全体的な学習を改善するか。
- RQ3オンライン学習時にデモデータと自己生成データをどのようにバランスさせてパフォーマンスを最大化すべきか。
- RQ4デモンストレーションを補助したDeep Q-networkは、非デモンストレーションのベースラインと比較して困難な探索を要するAtariゲームで優れた性能を発揮するか。
主な発見
| ゲーム | DQfD | 前回の最高 | アルゴリズム |
|---|---|---|---|
| Alien | 4745.9 | 4461.4 | Dueling DQN ( ?) |
| Asteroids | 3796.4 | 2869.3 | PopArt ( ?) |
| Atlantis | 920213.9 | 395762.0 | Prior. Dueling DQN ( ?) |
| Battle Zone | 41971.7 | 37150.0 | Dueling DQN ( ?) |
| Gravitar | 1693.2 | 859.1 | DQN+PixelCNN ( ?) |
| Hero | 105929.4 | 23037.7 | Prioritized DQN ( ?) |
| Montezuma Revenge | 4739.6 | 3705.5 | DQN+CTS ( ?) |
| Pitfall | 50.8 | 0.0 | Prior. Dueling DQN ( ?) |
| Private Eye | 40908.2 | 15806.5 | DQN+PixelCNN ( ?) |
| Q-Bert | 21792.7 | 19220.3 | Dueling DQN ( ?) |
| Up N Down | 82555.0 | 44939.6 | Dueling DQN ( ?) |
- DQfD は最初の100万ステップで、Prioritized Dueling Double DQN (PDD DQN) よりも41/42ゲームで初期性能が良い。
- 平均して、PDD DQN は DQfD の性能に追いつくのに約8300万ステップを要する。
- DQfD は42ゲームのうち14ゲームで最良デモを上回ることを学習し、11ゲームで最先端の結果を達成する。
- DQfD は関連する3つのデモンストレーション補助アルゴリズムおよび純粋模倣学習を複数の指標で上回る。
- 相対的に小さなデモセット(ゲームごとに5,574から75,472遷移)でも強い利得をもたらす。
- 事前学習中の4つすべての損失の組み合わせが、安定性と性能にとって重要であることが示されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。