QUICK REVIEW

[论文解读] Improving Generalization in Meta Reinforcement Learning using Learned Objectives

Louis Kirsch, Sjoerd van Steenkiste|arXiv (Cornell University)|Oct 9, 2019

Reinforcement Learning in Robotics参考文献 58被引用 59

一句话总结

MetaGenRL 元学习一个神经目标来指导学习规则，使其能够对全新环境进行泛化，并通过二阶梯度提升样本效率。

ABSTRACT

Biological evolution has distilled the experiences of many learners into the general learning algorithms of humans. Our novel meta reinforcement learning algorithm MetaGenRL is inspired by this process. MetaGenRL distills the experiences of many complex agents to meta-learn a low-complexity neural objective function that decides how future individuals will learn. Unlike recent meta-RL algorithms, MetaGenRL can generalize to new environments that are entirely different from those used for meta-training. In some cases, it even outperforms human-engineered RL algorithms. MetaGenRL uses off-policy second-order gradients during meta-training that greatly increase its sample efficiency.

研究动机与目标

激发构建可跨越多样环境转移的通用学习规则，其灵感来自进化过程。
学习一个低复杂度的神经目标 L_alpha，决定未来代理人如何学习。
利用一个代理人群体来元学习一个在训练领域之外也能泛化的共享目标函数。

提出的方法

将 L_alpha 定义为一个神经网络（实现为一个 LSTM），从轨迹数据输出逐步目标值。
使用离策略的二阶梯度通过对评价函数 Q_theta 和策略 phi 进行微分来更新 L_alpha。
用一个参数化的目标函数扩展 DDPG 的 actor-critic 框架，通过 L_alpha 的梯度引导策略更新。
在多个环境中训练一个代理人群体，以元学习一个在代理之间共享的一般目标函数。
在元测试阶段，固定学习到的 L_alpha，在一个新环境中训练一个随机初始化的代理，以评估泛化能力。

实验结果

研究问题

RQ1元学习得到的神经目标能否在与元训练中完全不同的环境中实现泛化？
RQ2相较于之前的元强化学习方法，使用二阶梯度和离策略更新是否能提高样本效率和泛化能力？
RQ3将学习规则（L_alpha）与策略分离如何提升泛化并降低对训练环境的过拟合？

主要发现

MetaGenRL 在此前见过和未见过的环境中都优于 REINFORCE 和 PPO。
与 RL2 相比，MetaGenRL 在样本效率方面更优，且在固定环境交互预算下常达到或超过性能。
在多个连续控制任务和种子设置的实验中，MetaGenRL 始终优于 EPG。
学习到的目标可以泛化到未见任务（例如 Hopper），而其他元 RL 基线则失败或过拟合。
消融研究表明，所学目标受益于包含价值函数输入以及梯度步骤的合适时机。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。