[论文解读] FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks (FuN) 引入一个两级层次结构,其中 Manager 以慢时间尺度设定定向、潜在目标,Worker 在每个时刻执行原始动作,通过转移策略梯度和内在奖励进行训练,以改善长期信用分配与记忆。
We introduce FeUdal Networks (FuNs): a novel architecture for hierarchical reinforcement learning. Our approach is inspired by the feudal reinforcement learning proposal of Dayan and Hinton, and gains power and efficacy by decoupling end-to-end learning across multiple levels -- allowing it to utilise different resolutions of time. Our framework employs a Manager module and a Worker module. The Manager operates at a lower temporal resolution and sets abstract goals which are conveyed to and enacted by the Worker. The Worker generates primitive actions at every tick of the environment. The decoupled structure of FuN conveys several benefits -- in addition to facilitating very long timescale credit assignment it also encourages the emergence of sub-policies associated with different goals set by the Manager. These properties allow FuN to dramatically outperform a strong baseline agent on tasks that involve long-term credit assignment or memorisation. We demonstrate the performance of our proposed system on a range of tasks from the ATARI suite and also from a 3D DeepMind Lab environment.
研究动机与目标
- 在强化学习中激发并解决长期信用分配和记忆挑战。
- 提出一个分层、可微分的架构,将跨层次和时间尺度的学习解耦。
- 引入一种新颖的转移策略梯度更新,为 Manager 的目标赋予语义意义。
- 通过方向性目标和对 Worker 的内在动机,促进可重复使用的子策略的产生。
- 在 ATARI 和 3D DeepMind Lab 任务上,相对于强基线展示经验收益。
提出的方法
- 具有设置目标的 Manager 和根据这些目标行动的 Worker 的两级 FuN 架构。
- Manager 以较低的时间分辨率运行并使用扩张的 LSTM 来维持长远记忆。
- Worker 接受内在奖励以遵循 Manager 的目标,并使用优势演员-评论家更新。
- 目标嵌入在低维空间中,并通过乘法交互调制 Worker 的策略。
- Manager 学习遵循基于潜在状态转移的余弦相似度的近似转移策略梯度。
- Worker 的内在奖励是一个运行平均余弦相似度,鼓励朝着目标方向的进展。
- 转移模型假设使用 von Mises-Fisher 方向分布来证明 Manager 的梯度更新。
实验结果
研究问题
- RQ1分层、可微的 FuN 架构是否能够提升强化学习任务中的长期信用分配和记忆?
- RQ2方向性潜在目标与解耦学习是否能产生跨时间尺度可解释的子策略并实现迁移?
- RQ3转移策略梯度是否为 Manager 提供有意义的训练信号,以优化外在奖励?
- RQ4内在动机对 Worker 有效实现 Manager 目标是否至关重要?
- RQ5FuN 相对于强的 LSTM 基线以及端到端基于选项的方法,在 ATARI 和 DeepMind Lab 任务上的表现如何?
主要发现
- FuN 在包括 Montezuma’s Revenge 的 Atari 游戏和 DeepMind Lab 任务上显著改善长期信用分配和记忆。
- Manager 学习有意义、具方向性的子目标,通过内在奖励引导 Worker。
- FuN 在多款 Atari 游戏和记忆任务上优于 LSTM 基线,特别是在使用长 BPTT 展开时。
- Manager 中的扩张 LSTM (dLSTM) 使得梯度跨越数百个时间步,支持长 horizon 规划。
- 消融研究表明转移策略梯度、方向性目标和内在动机对性能至关重要。
- FuN 的 Manager-Worker 分离允许跨体现和行动重复的转移策略潜在转移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。