Skip to main content
QUICK REVIEW

[论文解读] Meta-Reinforcement Learning of Structured Exploration Strategies

Abhishek Gupta, Russell Mendonca|arXiv (Cornell University)|Feb 20, 2018
Reinforcement Learning in Robotics参考文献 30被引用 180
一句话总结

介绍 MAESN,一种基于梯度的元强化学习方法,通过学习潜在空间实现结构化、时序一致的探索,从而快速适应新任务。展示在机器人和运动任务中,相较于先前的元强化学习方法和与任务无关的探索,获得更好的探索与适应能力。

ABSTRACT

Exploration is a fundamental challenge in reinforcement learning (RL). Many of the current exploration methods for deep RL use task-agnostic objectives, such as information gain or bonuses based on state visitation. However, many practical applications of RL involve learning more than a single task, and prior tasks can be used to inform how exploration should be performed in new tasks. In this work, we explore how prior tasks can inform an agent about how to explore effectively in new situations. We introduce a novel gradient-based fast adaptation algorithm -- model agnostic exploration with structured noise (MAESN) -- to learn exploration strategies from prior experience. The prior experience is used both to initialize a policy and to acquire a latent exploration space that can inject structured stochasticity into a policy, producing exploration strategies that are informed by prior knowledge and are more effective than random action-space noise. We show that MAESN is more effective at learning exploration strategies when compared to prior meta-RL methods, RL without learned exploration strategies, and task-agnostic exploration methods. We evaluate our method on a variety of simulated tasks: locomotion with a wheeled robot, locomotion with a quadrupedal walker, and object manipulation.

研究动机与目标

  • 在元RL中通过利用多个相关的先前任务来促成更好的探索。
  • 开发一种基于梯度的自适应方法,将结构化随机性注入探索过程。
  • 通过策略梯度更新和学习到的潜在探索空间,实现对新任务的快速适应。
  • 证明结构化噪声相较于随机动作空间噪声能产生更连贯的探索。
  • 在多样化的机器人领域中,将 MAESN 与先前的元RL方法以及任务无关的探索进行比较。

提出的方法

  • 提出 MAESN,将结构化潜在空间噪声与 MAML 风格的梯度适应相结合。
  • 将探索表示为以每个任务 episode 的潜在变量 z 为条件的策略,z 来自一个可学习的高斯分布,从而实现时序连贯的探索。
  • 元训练策略参数和每个任务的潜在参数,以最大化更新后的奖励,同时对单位高斯先验进行 KL 正则化。
  • 内循环:通过策略梯度更新潜在参数,必要时也更新策略参数;外循环:使用 TRPO 进行元更新。
  • 在自适应过程中通过重参数化或似然比方法对 z 的采样进行反向传播。
  • 通过与 MAML、RL2、潜在空间基线以及从零开始训练在操作和运动任务上的比较进行评估。

实验结果

研究问题

  • RQ1元学习的结构化探索策略是否能够实现连贯探索并快速适应新稀疏奖励任务?
  • RQ2MAESN 是否在学习探索方面优于先前的元RL方法(如 MAML、RL2)和潜在空间基线?
  • RQ3MAESN 训练得到的策略展现出何种探索策略,它们与基线在视觉上的对比如何?
  • RQ4MAESN 的哪些组成部分(潜在空间、元训练目标、梯度更新)对性能至关重要?

主要发现

  • MAESN 通过将动作以每次episode 的潜在变量为条件来实现时序一致的探索,优于基线的探索。
  • MAESN 在具有稀疏奖励的新任务上能快速适应,在多个领域超越 MAML 和 RL2。
  • 潜在空间元训练实现了有效的适应,优于仅潜在空间的方法。
  • MAESN 的探索轨迹覆盖连贯的行为,更好地匹配任务分布,相较于随机探索或 MAML。
  • 更新前的潜在参数收敛于先验,而更新后的参数移动到任务特定区域,从而实现有效适应。
  • 结构化噪声对于探索多样化、与任务相关的策略是必不可少的,超越时不变的动作噪声。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。