QUICK REVIEW

[论文解读] Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

Tejas D. Kulkarni, Karthik Narasimhan|arXiv (Cornell University)|Apr 20, 2016

Reinforcement Learning in Robotics参考文献 48被引用 414

一句话总结

本论文提出 h-DQN，是一个两层深度Q网络框架，利用内在目标和时间抽象来驱动探索，使在像 Montezuma’s Revenge 这样的稀疏延迟奖励任务中实现学习。

ABSTRACT

Learning goal-directed behavior in environments with sparse feedback is a major challenge for reinforcement learning algorithms. The primary difficulty arises due to insufficient exploration, resulting in an agent being unable to learn robust value functions. Intrinsically motivated agents can explore new behavior for its own sake rather than to directly solve problems. Such intrinsic behaviors could eventually help the agent solve tasks posed by the environment. We present hierarchical-DQN (h-DQN), a framework to integrate hierarchical value functions, operating at different temporal scales, with intrinsically motivated deep reinforcement learning. A top-level value function learns a policy over intrinsic goals, and a lower-level function learns a policy over atomic actions to satisfy the given goals. h-DQN allows for flexible goal specifications, such as functions over entities and relations. This provides an efficient space for exploration in complicated environments. We demonstrate the strength of our approach on two problems with very sparse, delayed feedback: (1) a complex discrete stochastic decision process, and (2) the classic ATARI game `Montezuma's Revenge'.

研究动机与目标

解决具有稀疏且延迟奖励的环境中的学习。
将时间抽象（选项）与内在动机结合，以引导探索。
实现灵活的目标规范（实体和关系），以约束探索。
开发一个可扩展的两级深度强化学习架构（元控制器和控制器）并进行联合训练。

提出的方法

引入 h-DQN，顶层元控制器在给定状态 s 和目标 g 时选择内在目标 g，低层控制器选择原始动作 a。
将值函数表示为 V(s,g)，由深度网络逼近，Q1(s,a;joint with g) 和 Q2(s,g) 分别用于控制器和元控制器。
用单独的经验记忆 D1 和 D2 以及相应的损失函数 L1 和 L2，对 Q1 和 Q2 进行训练，遵循 DQN 风格的更新。
在达到目标 g 时，使用内部评议者提供的内在奖励 rt(g)；并为元控制器的目标从环境获得外在奖励 ft。
在两个时间尺度上建模转变：快速转变 (s,a,g,r,s') 与较慢、以目标为导向的转变 (s,g, f, s')，以在不同时间分辨率下学习。
对两个控制器采用带自适应退火的 epsilon-greedy 探索，并通过对回放记忆的随机梯度下降来更新参数。

实验结果

研究问题

RQ1在稀疏奖励环境中，与纯基线相比，带内在目标的分层深度强化学习是否能提升学习？
RQ2在结构化空间（如实体和关系）上定义的目标是否能提升探索效率与数据效率？
RQ3两级（控制器和元控制器）DQN 框架是否能够扩展到像 Montezuma’s Revenge 这样的复杂任务？
RQ4学习与组合内在目标对长期信用分配有何影响？

主要发现

在具有延迟外在奖励的离散随机决策过程里，h-DQN 方法找到了一条访问关键中间状态的策略，平均奖励显著高于标准 Q-learning（在报告的设定中约为 0.13 比 0.01）。
在 Montezuma’s Revenge 上，分两阶段训练使代理学会到达钥匙并随后打开门，在外部奖励方面表现出色，而基本 DQN 和 Gorila DQN 表现较差（文中对比中基本 DQN 分数为 0；Gorila DQN 约为 4.16）。
该架构表明对实体/关系的内在动机能够有效约束探索，并在视觉丰富、稀疏奖励域中支持更长时域的规划。
该模型在训练过程中对较简单目标的逐步掌握在较难目标之前，表明目标选择具有有意义的类似课程的进展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。