QUICK REVIEW

[论文解读] Strategic Attentive Writer for Learning Macro-Actions

Alexander -, Vezhnevets|arXiv (Cornell University)|Jun 15, 2016

Artificial Intelligence in Games参考文献 20被引用 80

一句话总结

STRAW 是一种深度循环神经网络，通过维持和更新多步动作计划，在强化学习中端到端地学习时间上抽象的宏观动作，同时学习重新规划决策和动作序列，仅从环境奖励中进行学习。它通过隐式发现宏观动作，实现结构化探索和高效计算，从而在需要长期规划的雅达利游戏（如 Ms. Pacman 和 Frostbite）中提升性能。

ABSTRACT

We present a novel deep recurrent neural network architecture that learns to build implicit plans in an end-to-end manner by purely interacting with an environment in reinforcement learning setting. The network builds an internal plan, which is continuously updated upon observation of the next input from the environment. It can also partition this internal representation into contiguous sub- sequences by learning for how long the plan can be committed to - i.e. followed without re-planing. Combining these properties, the proposed model, dubbed STRategic Attentive Writer (STRAW) can learn high-level, temporally abstracted macro- actions of varying lengths that are solely learnt from data without any prior information. These macro-actions enable both structured exploration and economic computation. We experimentally demonstrate that STRAW delivers strong improvements on several ATARI games by employing temporally extended planning strategies (e.g. Ms. Pacman and Frostbite). It is at the same time a general algorithm that can be applied on any sequence data. To that end, we also show that when trained on text prediction task, STRAW naturally predicts frequent n-grams (instead of macro-actions), demonstrating the generality of the approach.

研究动机与目标

开发一种深度学习架构，从原始环境交互中端到端学习高层级、时间上延展的动作（宏观动作），无需先验知识或手工设计的子目标。
通过学习何时承诺计划、何时根据环境反馈重新规划，实现在强化学习中的结构化探索。
通过在计划执行期间延迟观察处理，减少计算成本，从而在承诺阶段释放计算资源。
通过将频繁的 n-gram 作为宏观动作进行学习，实现在控制任务（雅达利游戏）和序列预测（文本）等序列任务之间的泛化。
通过一种新颖架构，仅从奖励信号本身隐式捕捉时间抽象，实现宏观动作的端到端学习。

提出的方法

STRAW 使用双模块循环架构：特征提取器（如 CNN）处理观测输入，规划模块生成并更新多步动作计划。
模型维护一个承诺计划（c_t），用于确定当前动作序列在重新规划前的持续时间。
在特征提取器与规划模块之间引入一个有噪声的通信通道，注入结构化随机性，以促进在长时间跨度上的探索。
通过注意力机制生成动作计划，该机制关注内部状态的相关部分，以生成动作序列。
网络通过仅使用环境稀疏奖励信号的策略梯度方法进行训练，不使用伪奖励或子目标监督。
该架构支持强化学习和监督序列预测，宏观动作自然地作为频繁的动作模式浮现。

实验结果

研究问题

RQ1一个深度循环网络能否仅从稀疏奖励中端到端学习时间上抽象的宏观动作，而无需手工设计的子目标或伪奖励？
RQ2学习何时承诺动作计划如何提升强化学习中的探索效率和样本效率？
RQ3该模型能否根据环境条件（如障碍物或威胁）动态调整其规划时长？
RQ4所提出的架构能否超越控制任务，在其他序列建模问题（如文本预测）中实现泛化？
RQ5通过有噪声通信实现的结构化探索对学习性能和宏观动作发现有何影响？

主要发现

在需要长期规划的雅达利游戏中，如 Ms. Pacman 和 Frostbite，STRAW 实现了显著的性能提升，部分情况下优于标准基线模型，甚至超越 LSTM 模型。
在 Frostbite 中，STRAW 学习到的宏观动作对应于有意义的高层行为，例如在浮冰间跳跃和捕鱼，如规划输出中的可视化所示。
在 Amidar 中，STRAW 动态调整其规划时长：当敌人靠近时缩短宏观动作，路径畅通时则恢复更长的计划，展示了自适应重新规划能力。
在训练过程中，模型学会长时间承诺计划，大多数游戏的承诺水平在约 200 个训练周期后趋于稳定，但 Breakout 例外，由于对精度要求高，频繁重新规划为最优策略。
消融研究显示，学习何时重新规划比固定或始终重新规划的策略更有效，且更高维的噪声通道可提升性能，尽管收益递减。
在文本预测任务上进行训练时，STRAW 自然地将频繁的 n-gram 学习为宏观动作，证实了该架构在序列任务中的通用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。