QUICK REVIEW

[论文解读] Some Considerations on Learning to Explore via Meta-Reinforcement Learning

Bradly C. Stadie, Ge Yang|arXiv (Cornell University)|Mar 3, 2018

Reinforcement Learning in Robotics参考文献 31被引用 71

一句话总结

该论文将元强化学习重新表述为快速塑形每个任务的采样分布，并引入两种算法 E-MAML 和 E-RL²，在 Krazy World 和迷宫任务上展示它们的优势。

ABSTRACT

We consider the problem of exploration in meta reinforcement learning. Two new meta reinforcement learning algorithms are suggested: E-MAML and E-$ ext{RL}^2$. Results are presented on a novel environment we call `Krazy World' and a set of maze environments. We show E-MAML and E-$ ext{RL}^2$ deliver better performance on tasks where exploration is important.

研究动机与目标

将元-RL 解释为在新环境中快速找到良好的每任务采样分布的学习。
推导基于梯度的元学习算法，优化在适应期间的探索（E-MAML）及其 RL² 扩展（E-RL²）。
在高维的 Krazy World 环境和迷宫任务上演示这些方法，以评估转移和适应速度。

提出的方法

将策略视为对状态的采样分布，并优化该分布如何支持快速适应。
对初始采样分布对在适应后获得的未来奖励的影响进行微分（Eq. 3），以考虑其对元学习目标的影响。
推导包含一个探索项、影响外部元更新的两项梯度表达式（Eq. 4）。
将 E-MAML 定义为一种基于梯度的元学习变体，明确在适应期间考虑采样的影响。
通过修改 RL² 框架来实现通过采样进行微分，采用 Explore/Exploit 回滚方案，并在反向传播中对 Explore 回滚的奖励进行置零，从而得到 E-RL²。
使用 Krazy World（高维、动态变化的任务）和迷宫环境进行评估，以测试采样微分和转移。

实验结果

研究问题

RQ1通过对每任务的采样过程进行微分是否可以提高元学习的适应速度和鲁棒性？
RQ2在 Krazy World 和迷宫等高难度任务分布中，E-MAML 和 E-RL² 是否比基线 MAML 和 RL² 提供更快的收敛和更好的转移？
RQ3在元-RL 中考虑初始采样分布如何影响探索行为和系统辨识？
RQ4所提出的框架是否在高维、动态变化的环境中显现出更优秀的以探索驱动的元学习？

主要发现

在 Krazy World 上，E-MAML 比 MAML 收敛更快，且两者都达到较好的最终表现；E-RL² 获得最佳最终表现，但初始方差较高。
在 Krazy World 中，E-RL² 在训练结束时普遍优于基线，而 RL² 展现出较高的方差和偶发的较差表现。
在迷宫环境中，RL² 与 E-RL² 的表现优于 MAML 和 E-MAML，得益于记忆与更长的探索视野。
RL² 的变体往往随时间解决更多的迷宫，表明记忆型探索在迷宫中的优势。
总体而言，所提出的方法相对于基线具有更快的初始增益和更好的探索覆盖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。