[論文レビュー] A Deep Hierarchical Approach to Lifelong Learning in Minecraft
論文は、Hierarchical Deep Reinforcement Learning Network (H-DRLN) を導入し、DSN配列または蒸留型マルチスキルネットワークを介して事前学習済み Deep Skill Networks (DSN) を再利用し、Minecraftでのスケーラブルな生涯学習を可能にし、サブドメインで vanilla DQN より優れている。加えて、時系列的に拡張された行動を訓練するための新しい Skill Bellman 方程式と Skill Experience Replay を提案する。
We propose a lifelong learning system that has the ability to reuse and transfer knowledge from one task to another while efficiently retaining the previously learned knowledge-base. Knowledge is transferred by learning reusable skills to solve tasks in Minecraft, a popular video game which is an unsolved and high-dimensional lifelong learning problem. These reusable skills, which we refer to as Deep Skill Networks, are then incorporated into our novel Hierarchical Deep Reinforcement Learning Network (H-DRLN) architecture using two techniques: (1) a deep skill array and (2) skill distillation, our novel variation of policy distillation (Rusu et. al. 2015) for learning skills. Skill distillation enables the HDRLN to efficiently retain knowledge and therefore scale in lifelong learning, by accumulating knowledge and encapsulating multiple reusable skills into a single distilled network. The H-DRLN exhibits superior performance and lower learning sample complexity compared to the regular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
研究の動機と目的
- Minecraft のような高次元環境で、エージェントが絶えず知識を獲得・保持・転移する生涯学習を動機づける。
- 再利用可能なスキル(DSN)と階層型コントローラを導入し、選択的転送によって新しいタスクを効率的に解決する。
- スキル蒸留を介して複数のスキルを保持・結合するための、DSN配列と蒸留済みマルチスキルネットワークなど、スケーラブルな機構を開発する。
- Minecraftのサブドメインで、標準的なDQNと比較して学習性能の改善と収束の高速化を示す。
- 追加学習なしで関連タスク間の知識伝達の実証的証拠を提供する。
提案手法
- スキルを、開始集合、スキル内ポリシー、終了条件を持つ時間的に拡張されたアクション(オプション)として定義する。
- DSNの配列を保存するか、蒸留されたマルチスキルネットワークを持つDeep Skill Moduleを備えた階層型深層強化学習ネットワーク(H-DRLN)へDQNを拡張する。
- スキルを用いたSMDPベースの学習を扱うために、Skill Bellman 方程式と Skill Experience Replay を導入する。
- サブドメインでVanilla DQN のバリアントを用いてDSNを訓練し、それらを新しいタスクのためにH-DRLNへ統合する。
- 複数のDSNを単一の蒸留ネットワークに融合するためにポリシー蒸留を適用し、スケーラブルな知識保持を可能にする。
- Minecraftのサブドメインと複合ドメインで評価し、vanilla DQNおよびDDQNと比較する。
実験結果
リサーチクエスチョン
- RQ1単純なサブドメインで学習した事前学習済みDSNを再利用して、Minecraftのより複雑なタスクを解決できるか。
- RQ2階層的タスクにおいて、H-DRLNは標準のDQN/DDQNよりデータ効率の良い学習と高い性能を実現するか。
- RQ3複数のDSNを単一のスケーラブルなネットワークへ蒸留して、タスク特有の能力を失うことなく実現できるか。
- RQ4追加の学習なしに関連タスク間で知識伝達が起きるか、学習中のスキル使用はどのように進化するか。
主な発見
| ドメイン | tau=0.1 | tau=1 | Original DSN |
|---|---|---|---|
| Navigation | 81.5 | 78.0 | 94.6 |
| Pick Up | 99.6 | 83.3 | 100 |
| Break | 78.5 | 73.0 | 100 |
| Placement | 78.5 | 73.0 | 100 |
- DSNを用いたH-DRLNは、Minecraftのサブドメインでvanilla DQNよりも速い収束と高い性能を達成する。
- 2部屋ドメインでは、vanilla DQNは50%の成功、DSN単体は67.65%、H-DRLN_STARTは73.08%、H-DRLN_ENDは76%の成功。
- 蒸留型マルチスキルネットワークは部屋を跨いで最大94±4%の成功率を達成し、DDQNベースラインを上回る。
- スキルの使用は訓練中盤(エポック50程度)に増加し、その後プリミティブなアクションを用いて方策を洗練する際に安定化するが、スキルは学習を大幅に加速させる。
- 1部屋ドメインで訓練されたDSNは追加の訓練なしに関連タスクへ移行でき、対象タスクに直接訓練したDQNより高い報酬を生む。
- スキルを用いた訓練はサンプル複雑さを軽減し、時系列に拡張されたアクションを可能にすることで探索性を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。