[论文解读] A Deep Hierarchical Approach to Lifelong Learning in Minecraft
tldr: 论文提出一个分层深度强化学习网络(H-DRLN),通过 DSN 数组或蒸馏的多技能网络来重复使用预训练的深度技能网络(DSN),从而在 Minecraft 中实现可扩展的终身学习,并在子领域中优于 vanilla DQN。它还提出一种新颖的 Skill Bellman 方程和 Skill Experience Replay,以处理时序扩展动作的训练。
We propose a lifelong learning system that has the ability to reuse and transfer knowledge from one task to another while efficiently retaining the previously learned knowledge-base. Knowledge is transferred by learning reusable skills to solve tasks in Minecraft, a popular video game which is an unsolved and high-dimensional lifelong learning problem. These reusable skills, which we refer to as Deep Skill Networks, are then incorporated into our novel Hierarchical Deep Reinforcement Learning Network (H-DRLN) architecture using two techniques: (1) a deep skill array and (2) skill distillation, our novel variation of policy distillation (Rusu et. al. 2015) for learning skills. Skill distillation enables the HDRLN to efficiently retain knowledge and therefore scale in lifelong learning, by accumulating knowledge and encapsulating multiple reusable skills into a single distilled network. The H-DRLN exhibits superior performance and lower learning sample complexity compared to the regular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.
研究动机与目标
- 在像 Minecraft 这样的高维环境中,激励代理持续获取、保持并在任务之间迁移知识的终身学习。
- 引入可重复使用的技能(DSN)和分层控制器,通过有选择的迁移高效解决新任务。
- 开发可扩展的机制(DSN 数组和蒸馏的多技能网络),通过技能蒸馏保留并组合多种技能。
- 展示在 Minecraft 子域中相比于 vanilla DQN 的改进学习性能和更快的收敛。
- 提供相关任务之间知识迁移的实证证据,无需额外学习。
提出的方法
- 将技能定义为时态扩展动作(选项),具备起始集、技能内策略和终止条件。
- 将 DQN 扩展为带有 Deep Skill Module 的分层深度强化学习网络(H-DRLN),该模块要么存储一个 DSN 数组,要么存储一个蒸馏的多技能网络。
- 引入 Skill Bellman 方程和 Skill Experience Replay 以处理基于技能的 SMDP 学习。
- 在子域上使用 vanilla DQN 变体训练 DSN,并将其集成到 H-DRLN 以应对新任务。
- 应用策略蒸馏将多个 DSN 融合为一个蒸馏网络,以实现可扩展的知识保留。
- 在 Minecraft 子域和组合域上进行评估,以与 vanilla DQN 和 DDQN 进行比较。
实验结果
研究问题
- RQ1在简单子域中学到的预训练 DSN 是否可以重复用于解决 Minecraft 中的更复杂任务?
- RQ2在分层任务中,H-DRLN 是否比标准 DQN/DDQN 实现更高的数据效率和更高的性能?
- RQ3多个 DSN 是否能够蒸馏为一个单一的可扩展网络而不丢失任务特定能力?
- RQ4相关任务之间是否在无需额外训练的情况下发生知识迁移,以及在学习过程中技能使用如何演进?
主要发现
| 领域 | tau=0.1 | tau=1 | 原始 DSN |
|---|---|---|---|
| Navigation | 81.5 | 78.0 | 94.6 |
| Pick Up | 99.6 | 83.3 | 100 |
| Break | 78.5 | 73.0 | 100 |
| Placement | 78.5 | 73.0 | 100 |
- 在 Minecraft 子域中,带 DSN 的 H-DRLN 比 vanilla DQN 收敛更快、性能更高。
- 在两房域中,vanilla DQN 达到 50% 成功,单独 DSN 为 67.65%,H-DRLN_START 为 73.08%,H-DRLN_END 为 76% 成功。
- 蒸馏的多技能网络在各房间的成功率高达 94±4%,优于 DDQN 基线。
- 技能使用在训练中期(大约第 50 轮)增长,随后随着使用原始动作来细化策略而稳定,但技能显著加速学习。
- 在一个房间域上训练的 DSN 可以无需进一步训练就迁移到相关任务,获得比直接在目标任务上训练的 DQN 更高的奖励。
- 通过技能进行训练可以降低样本复杂度并通过实现时序扩展行动来改进探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。