[论文解读] Learning to reinforcement learn
本文介绍深度元强化学习,其中用一种RL算法训练的循环神经网络最终实现另一种学习的RL过程,该过程能够在跨任务中快速自适应。通过七个概念验证实验在 bandits 和 MDP 设置中验证该方法。
In recent years deep reinforcement learning (RL) systems have attained superhuman performance in a number of challenging task domains. However, a major limitation of such applications is their demand for massive amounts of training data. A critical present objective is thus to develop deep RL methods that can adapt rapidly to new tasks. In the present work we introduce a novel approach to this challenge, which we refer to as deep meta-reinforcement learning. Previous work has shown that recurrent networks can support meta-learning in a fully supervised context. We extend this approach to the RL setting. What emerges is a system that is trained using one RL algorithm, but whose recurrent dynamics implement a second, quite separate RL procedure. This second, learned RL algorithm can differ from the original one in arbitrary ways. Importantly, because it is learned, it is configured to exploit structure in the training domain. We unpack these points in a series of seven proof-of-concept experiments, each of which examines a key aspect of deep meta-RL. We consider prospects for extending and scaling up the approach, and also point out some potentially important implications for neuroscience.
研究动机与目标
- 动机是在深度强化学习中需要快速适应,超越对大量数据需求和任务专门化的局限。
- 提出一个框架:让循环网络学习实现其自身的RL过程,同时由另一种RL算法进行训练。
- 通过概念验证实验证明,所学习的RL过程能够利用任务结构并适应新任务。
- 研究自适应的探索-利用、bandits 中的元学习,以及在 MDPs 中的结构学习等方面。
- 讨论深度元强化学习的潜在扩展及其在神经科学方面的可能含义。
提出的方法
- 用一个 RL 算法训练一个循环神经网络(LSTM),以最大化相关 MDP 任务分布中的累计奖励。
- 向网络输入包括前一动作和获得的奖励,以诱导内部学习动力学。
- 循环动力学学习出一个独立的RL过程,该过程可能与外部训练算法不同。
- 使用带熵正则化的Advantage Actor-Critic(A2C/A3C),结合价值/策略损失来训练网络。
- 在多个元学习任务(bandits 与 MDPs)上进行评估,以评估自适应学习率和对任务结构的利用。
实验结果
研究问题
- RQ1用一种RL算法训练的循环网络能否发展出自己的内部RL策略,以适应新任务?
- RQ2所学习的RL过程是否利用任务结构在多样化环境中实现更快的适应和更低的遗憾?
- RQ3元强化学习在变化环境中在多大程度上能够实现自适应探索和可调整的学习率?
- RQ4元强化学习在相关且略有修改的任务分布之间如何泛化?
- RQ5这些结果对神经科学中基于模型/无模型的区分有何启示?
主要发现
- 元强化学习系统在循环动态中学习出一个独立的学习型RL算法,该算法可能与训练时的RL过程不同。
- 所学习的RL过程能够根据观察到的任务统计自适应探索与学习率,从而提高效率。
- 在结构化 bandit 任务上训练的智能体利用臂之间的相关性,在某些设置中与贝叶斯基准表现相当。
- 在结构化分布上训练可能会降低对独立任务的表现,之而亦然,表明存在先验依赖的学习。
- 在两步任务变体中,基于模型无关的训练在某些分析下呈现出类似基于模型控制的行为,显示学习策略的分化。
- 元强化学习在波动环境中展示了自适应学习率,优于固定学习率的基线和常规RL方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。