QUICK REVIEW

[论文解读] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

Junhyuk Oh, Satinder Singh|arXiv (Cornell University)|Jun 15, 2017

Reinforcement Learning in Robotics参考文献 39被引用 114

一句话总结

本文提出一个两阶段的分层强化学习框架：通过学习参数化技能，使用类比生成目标以实现对未见子任务的泛化；随后是一個元控制器，执行指令序列，并能够通过一种新颖的大时间尺度学习机制对子任务更新进行中断/更新。

ABSTRACT

As a step towards developing zero-shot task generalization capabilities in reinforcement learning (RL), we introduce a new RL problem where the agent should learn to execute sequences of instructions after learning useful skills that solve subtasks. In this problem, we consider two types of generalizations: to previously unseen instructions and to longer sequences of instructions. For generalization over unseen instructions, we propose a new objective which encourages learning correspondences between similar subtasks by making analogies. For generalization over sequential instructions, we present a hierarchical architecture where a meta controller learns to use the acquired skills for executing the instructions. To deal with delayed reward, we propose a new neural architecture in the meta controller that learns when to update the subtask, which makes learning more efficient. Experimental results on a stochastic 3D domain show that the proposed ideas are crucial for generalization to longer instructions as well as unseen instructions.

研究动机与目标

通过学习子任务之间的类比，在强化学习中实现对未见子任务的零样本泛化。
使模型能够对训练中未见的更长指令序列进行泛化。
处理延迟奖励问题，即在完成所有指令后才给出成功奖赏。
通过允许动态子任务更新来支持来自意外事件的中断。
提供一种分层体系结构，能够将预先学习的子任务组合起来执行指令列表。

提出的方法

引入参数化技能，将观测和任务参数映射到动作和终止信号，从而实现多任务策略学习。
提出一个类比生成目标，结合对比损失来塑造任务嵌入空间，并实现对未见子任务的泛化（相似性、差异性和差异约束）。
使用演员-评论家方法（A2C/GAE）训练参数化技能，必要时使用策略蒸馏以提升迁移。
构建两阶段架构：一个用于子任务的生成技能学习者，以及一个读取指令列表并选择子任务参数的元控制器。
设计一种新颖的元控制器，包含将前一子任务和一个终止信号整合进来的上下文 LSTM，以及一个使用软更新机制在更大时间尺度上运作的子任务更新器。
实现一个具备记忆能力的指令更新器，通过对指令序列的软注意力来检索和移动指令，从而实现对子任务参数的单步更新。

实验结果

研究问题

RQ1提出的类比生成目标是否能够在参数化技能内实现对未见子任务的零样本泛化？
RQ2使用分层元控制器时，泛化是否扩展到未见的或更长的指令序列？
RQ3元控制器决定何时更新子任务的能力在延迟奖励和中断情境下是否提升性能？
RQ4以较大时间尺度（通过软更新）运行对学习效率和对未预期事件的响应性有何影响？
RQ5所提出的方法是否在指令执行任务上超越非分层基线和其他分层强化学习变体？

主要发现

基于类比的泛化使对未见参数化子任务在若干泛化情景中实现成功迁移。
具有元控制器的分层架构在执行指令序列方面优于若干基线，包括未见的序列。
学习何时更新子任务（动态时间尺度）在延迟奖励和中断情况下显著提升性能，相比于每步更新或仅在终止时更新。
采用软更新的大时间尺度元控制器在训练效率和对未预期事件的鲁棒性方面优于固定时间尺度的变体。
在一个类Minecraft的3D域中的实验表明，该方法能泛化到更长的指令序列和未见的指令，使用动态更新机制时收益显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。