QUICK REVIEW

[论文解读] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning

Tianmin Shu, Caiming Xiong|arXiv (Cornell University)|Dec 20, 2017

Robot Manipulation and Learning参考文献 14被引用 57

一句话总结

本文提出一个分层、语言为基础的多任务强化学习框架，通过顶层策略重用先前学习的技能，辅以随机时序语法来指引何时重用或学习新技能，在Minecraft/Malmo任务中得到证明。

ABSTRACT

Learning policies for complex tasks that require multiple different skills is a major challenge in reinforcement learning (RL). It is also a requirement for its deployment in real-world scenarios. This paper proposes a novel framework for efficient multi-task reinforcement learning. Our framework trains agents to employ hierarchical policies that decide when to use a previously learned policy and when to learn a new skill. This enables agents to continually acquire new skills during different stages of training. Each learned task corresponds to a human language description. Because agents can only access previously learned skills through these descriptions, the agent can always provide a human-interpretable description of its choices. In order to help the agent learn the complex temporal dependencies necessary for the hierarchical policy, we provide it with a stochastic temporal grammar that modulates when to rely on previously learned skills and when to execute new skills. We validate our approach on Minecraft games designed to explicitly test the ability to reuse previously learned skills while simultaneously learning new skills.

研究动机与目标

通过层次结构和语言定位重用已学技能来促进高效的多任务强化学习。
通过任务积累课程，在训练阶段实现技能的持续累积。
通过用人类语言描述策略和计划来提供可解释性。
引入随机时序语法以建模任务之间的时序依赖。
在Minecraft环境中证明学习效率和泛化能力的提升。

提出的方法

引入一个四部分的分层策略：基础策略（前一阶段）、指令策略、增强的平坦策略，以及用于在基础动作与新动作之间进行选择的开关策略。
用人类指令表示任务，以提升可解释性和对任务的定位。
使用随机时序语法（STG）作为先验，建模基础技能与新技能之间的时序转移。
使用 Advantage Actor-Critic（A2C）训练策略，并从正向情节中估计 STG 概率。
采用两阶段课程：基础技能获取（重用现有技能）随后在每个阶段进行新技能获取（学习新技能）。
将 STG 先验整合到开关与指令决策中，以指导探索与计划执行。

实验结果

研究问题

RQ1多任务强化学习代理是否能够学习层次化策略，以重用先前学习的技能来获得新技能？
RQ2将任务以人类语言进行定位是否能提升策略的可解释性和计划组成？
RQ3随机时序语法是否通过建模任务之间的时序依赖来提升效率和准确性？
RQ4两阶段课程（先基础技能再新技能）如何影响在逐步扩展的任务集合中的学习效率和泛化？

主要发现

完整的分层模型在各任务集合中比扁平基线更快收敛、并获得更高的平均奖励。
与扁平策略相比，该模型在更大的房间和有干扰物的场景中显示出更好的泛化能力。
分层计划可以通过可视化进行解释，显示高层策略如何使用人类指令组合低层技能。
两阶段课程加速了学习，课程效应体现为阶段转变更快和最终表现更高。
在消融实验中，移除 STG、交替更新，或开关值函数都会降低性能，表明这些组件的重要性。
定量结果（表1）在 Find x、Get x、Put x、Stack x 的小房间和大房间任务中，完整模型的成功率更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。