Skip to main content
QUICK REVIEW

[论文解读] Discovering Reinforcement Learning Algorithms

Junhyuk Oh, Matteo Hessel|arXiv (Cornell University)|Jul 17, 2020
Reinforcement Learning in Robotics参考文献 45被引用 62
一句话总结

本论文提出 LPG,一种元学习框架,通过同时学习要预测什么以及如何引导自举,来发现整个 RL 更新规则,使从 toy 环境到 Atari 游戏的泛化成为可能。LPG 学习自身的预测与自举语义,可能从数据中产生通用的强化学习算法。

ABSTRACT

Reinforcement learning (RL) algorithms update an agent's parameters according to one of several possible rules, discovered manually through years of research. Automating the discovery of update rules from data could lead to more efficient algorithms, or algorithms that are better adapted to specific environments. Although there have been prior attempts at addressing this significant scientific challenge, it remains an open question whether it is feasible to discover alternatives to fundamental concepts of RL such as value functions and temporal-difference learning. This paper introduces a new meta-learning approach that discovers an entire update rule which includes both 'what to predict' (e.g. value functions) and 'how to learn from it' (e.g. bootstrapping) by interacting with a set of environments. The output of this method is an RL algorithm that we call Learned Policy Gradient (LPG). Empirical results show that our method discovers its own alternative to the concept of value functions. Furthermore it discovers a bootstrapping mechanism to maintain and use its predictions. Surprisingly, when trained solely on toy environments, LPG generalises effectively to complex Atari games and achieves non-trivial performance. This shows the potential to discover general RL algorithms from data.

研究动机与目标

  • 激励基于数据自动发现 RL 更新规则。
  • 开发一个元学习框架,能够同时发现预测目标和学习机制。
  • 产生一个能在多样化环境中泛化的更新规则(LPG)。
  • 探查所发现的语义是否类似于价值函数与自举。
  • 展示从玩具环境到复杂 Atari 基准的泛化。

提出的方法

  • 提出 Learned Policy Gradient (LPG),一个由元参数参数化的更新规则体系结构,输出策略与预测目标。
  • 使用反向 LSTM 处理智能体轨迹输入,并为智能体输出(hat{pi}, hat{y})生成目标。
  • 将智能体更新定义为基于 KL 散度的学习信号和一个辅助预测更新项。
  • 通过在一组环境分布上对智能体更新进行反向传播来元训练 LPG,以最大化生命周期末期的回报。
  • 用熵和 L2 项对元学习过程进行正则化,以稳定训练并鼓励有用的预测语义。
  • 在线使用带状(bandit-like)方案平衡环境特定的超参数,以提高元训练的稳定性。

实验结果

研究问题

  • RQ1LPG 是否能够发现用于 RL 自举的预测有用语义?
  • RQ2LPG 学习了哪些预测语义,它们是否类似于价值函数?
  • RQ3为超越仅学习策略更新而探索预测语义对性能是否至关重要?
  • RQ4所提出的正则化项与超参数平衡是否对稳定的元训练至关重要?
  • RQ5在玩具环境上训练的 LPG 是否能泛化到 Atari 游戏?

主要发现

  • LPG 在若干训练环境上优于 canonical baseline (A2C),表明成功发现了有用的更新规则。
  • 发现的预测 y 显示出类似价值函数的特性,且可以对策略更新进行自举。
  • 预测语义收敛到一个稳定的含义,即使没有显式收敛保证。
  • 消融研究表明正则化项和超参数平衡对训练稳定性和性能至关重要。
  • 在玩具环境上训练的 LPG 能泛化到某些 Atari 游戏,在若干情形下达到具有竞争力的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。