[论文解读] Relational Deep Reinforcement Learning
该论文通过自注意力引入关系归纳偏差,用于深度强化学习,能够对实体之间进行非局部关系推理,从而提升样本效率、泛化和在 Box-World 和 StarCraft II 小型游戏的表现。
We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability of conventional approaches through structured perception and relational reasoning. It uses self-attention to iteratively reason about the relations between entities in a scene and to guide a model-free policy. Our results show that in a novel navigation and planning task called Box-World, our agent finds interpretable solutions that improve upon baselines in terms of sample complexity, ability to generalize to more complex scenes than experienced during training, and overall performance. In the StarCraft II Learning Environment, our agent achieves state-of-the-art performance on six mini-games -- surpassing human grandmaster performance on four. By considering architectural inductive biases, our work opens new directions for overcoming important, but stubborn, challenges in deep RL.
研究动机与目标
- 通过引入关系表示来提升泛化和样本效率,激发对深度强化学习的改进动机。
- 提出一种使场景实体之间能够进行非局部、迭代关系推理的结构性归纳偏差。
- 证明关系推理能产生可解释、可迁移的表示。
- 在 StarCraft II 小型游戏中达到最先进的性能,并在关系性挑战性的 Box-World 任务中展现出强劲表现。
提出的方法
- 用关系语言表示状态、动作和策略以指导学习。
- 使用非局部、共享函数的注意力块(多头点积注意力)来计算实体之间的成对及高阶交互。
- 通过将坐标附加到 CNN 特征并将空间单元视为实体来从像素输入中提取实体,以供注意力处理。
- 在策略与价值头之前堆叠带残差连接的注意力块,并通过最大池化进行聚合。
- 对 Box-World 采用分布式架构(100 个智能体,1 个学习者)的演员-评论家设置;为 StarCraft II 调整架构,使用 ConvLSTM 以处理时间依赖性。
- 提供与非关系控制网络(残差卷积块)的基线比较,以分离关系优势。
实验结果
研究问题
- RQ1通过自注意力学习的关系表示是否可以在强化学习任务中提升对未见关系配置的泛化?
- RQ2迭代的非局部关系计算是否能够实现超越局部卷积的高阶关系推理?
- RQ3关系归纳偏置如何影响像 StarCraft II 小型游戏这类复杂环境中的样本效率和表现?
- RQ4在多大程度上学习到的关系表示具有可解释性和跨任务的可迁移性?
主要发现
| 小型游戏 | DeepMind 人类玩家 | 星际争霸大师 | 随机策略 | FullyConv LSTM | PBT-A3C | 关系智能体 | 对照智能体 |
|---|---|---|---|---|---|---|---|
| 1 | 26 | 28 | 1 | 26 | – | 27 | 27 |
| 2 | 133 | 177 | 17 | 104 | 101 | 196 ↑ | 187 ↑ |
| 3 | 46 | 61 | 4 | 44 | 50 | 62 ↑ | 61 |
| 4 | 41 | 215 | 1 | 98 | 132 | 303 ↑ | 295 ↑ |
| 5 | 729 | 727 | 23 | 96 | 125 | 736 ↑ | 602 |
| 6 | 6880 | 7566 | 12 | 3351 | 3345 | 4906 | 5055 |
| 7 | 138 | 133 | < 1 | 6 | 0 | 123 | 120 |
- 关系模块在 Box-World 变体上实现了接近最优的表现,特别是随着干扰因素复杂性增加时,优于卷积基线。
- 在 Box-World 中,具备关系推理的智能体对更长的解题路径和未见的钥匙-锁配置表现出高成功率的泛化(例如在更长路径的零样本传输中 >88%)。
- 在 StarCraft II 小型游戏中,关系智能体在六个小型游戏中取得了最先进的分数,在四个小型比赛中超越人类大师,超越了控制智能体。
- 注意力可视化显示了可解释的关系语义,例如钥匙关注可解锁的锁、智能体关注钥匙和宝石。
- 关系智能体在更长序列和新颖钥匙-锁组合中的零样本传输能力,表明更强的抽象关系理解。
- 关系偏置在某些 SC2 设置中提高了泛化能力,尽管结果存在变异性且依赖于模型规模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。