QUICK REVIEW

[论文解读] Evolved Policy Gradients

Rein Houthooft, Richard Y. Chen|arXiv (Cornell University)|Feb 13, 2018

Reinforcement Learning in Robotics参考文献 48被引用 96

一句话总结

EPG 通过演化策略学习一个可微分、时序结构的损失，用于训练强化学习代理，能够在没有测试时奖励信号的情况下实现更快的学习和对新任务的泛化。

ABSTRACT

We propose a metalearning approach for learning gradient-based reinforcement learning (RL) algorithms. The idea is to evolve a differentiable loss function, such that an agent, which optimizes its policy to minimize this loss, will achieve high rewards. The loss is parametrized via temporal convolutions over the agent's experience. Because this loss is highly flexible in its ability to take into account the agent's history, it enables fast task learning. Empirical results show that our evolved policy gradient algorithm (EPG) achieves faster learning on several randomized environments compared to an off-the-shelf policy gradient method. We also demonstrate that EPG's learned loss can generalize to out-of-distribution test time tasks, and exhibits qualitatively different behavior from other popular metalearning algorithms.

研究动机与目标

引入一个元学习框架，学习一个用于RL代理的可微分损失。
使用演化策略优化损失参数，使内循环学习获得高的最终回报。
设计一个利用代理历史的时序卷积损失结构。
展示在随机化连续控制任务上的更快学习和分布外泛化。
表明学习到的损失在目标任务分布上可以优于标准的策略梯度基线。

提出的方法

构建一个两环元学习过程，外环进化损失函数 Lφ。
用对最近的代理经历的时序卷积来表示 Lφ，以捕捉历史信息。
通过对 Lφ 使用随机梯度下降来优化内环策略 πθ。
使用演化策略优化 φ，因为最终回报不是 φ 的显式函数。
引入一个记忆单元和缓冲区，为损失提供历史信息，以及来自时序卷积的上下文向量。
使用基于奖励的代理损失 Lpg 进行引导学习，并逐步退火至 0，使 Lφ 能在训练中长期主导。

实验结果

研究问题

RQ1学到的、可微的损失代理能否提升RL代理在一组任务上的样本效率和最终性能？
RQ2通过 ES 演化损失函数能否得到泛化到未见过或分布外任务的策略？
RQ3EPG 损失如何利用代理历史实现快速适应和探索，而不依赖测试时的奖励？
RQ4学习到的损失产生的梯度与传统策略梯度目标之间的关系是什么？

主要发现

在若干随机化的连续控制任务上，EPG 训练代理的速度快于现成的策略梯度方法。
学到的损失 Lφ 能泛化到分布外的测试时任务，表现出与其他元学习方法显著不同的行为。
包含记忆机制和时序卷积使损失能够利用代理历史，在内环更新中提供更好的引导。
使用学到的损失进行测试时训练不需要奖励信号，但在训练任务分布内仍可实现高最终性能。
将策略初始化与损失一起演化（EPG+I）可能产生不同的、有时有利的学习动力学，相较于标准基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。