QUICK REVIEW

[论文解读] Meta reinforcement learning as task inference

Jan Humplik, Alexandre Galashov|arXiv (Cornell University)|May 15, 2019

Reinforcement Learning in Robotics参考文献 56被引用 63

一句话总结

这篇论文将元强化学习框架化为在 POMDP 中推断未知任务，并训练一个两流代理，其中 belief 模块估计任务后验，而策略在状态和信念上行动。它表明带特权任务信息的监督信念学习可以加速学习并提升性能，包括在具有稀疏奖励的长时域连续控制中。

ABSTRACT

Humans achieve efficient learning by relying on prior knowledge about the structure of naturally occurring tasks. There is considerable interest in designing reinforcement learning (RL) algorithms with similar properties. This includes proposals to learn the learning algorithm itself, an idea also known as meta learning. One formal interpretation of this idea is as a partially observable multi-task RL problem in which task information is hidden from the agent. Such unknown task problems can be reduced to Markov decision processes (MDPs) by augmenting an agent's observations with an estimate of the belief about the task based on past experience. However estimating the belief state is intractable in most partially-observed MDPs. We propose a method that separately learns the policy and the task belief by taking advantage of various kinds of privileged information. Our approach can be very effective at solving standard meta-RL environments, as well as a complex continuous control environment with sparse rewards and requiring long-term memory.

研究动机与目标

通过在多任务 RL 设置中将任务视为隐藏变量来激发学习如何学习。
提出一个两流代理，分别学习任务信念和控制策略。
利用特权监督来训练一个估计任务后验的信念网络。
展示离策略学习的效率与信息瓶颈正则化在回放数据中的益处。

提出的方法

将 meta-RL 表述为一个 POMDP，状态为 (x, w)，其中 w 是未观测的任务；任务后验 b_t(w) 由轨迹数据更新。
引入一个 Belief 网络，输出近似信念 ϖastcall b_t(h_t| au_{0:t})，使用特权任务信息 h_t（例如任务描述、专家动作、任务嵌入）。
用辅助监督损失训练 belief 网络以模仿真实的任务信息，最小化对数损失或 KL 散度到后验。
使用一个两流结构，其中策略（以及可选的评估器）在 (x_t, ϖast b_t) 条件上，而非完整历史，梯度与信念网络分离。
探索离策略 SVG(0)（带熵正则化），并与 PPO 比较，结合信息瓶颈（IB）正则化以在回放数据中改善泛化。
将 belief-network 代理与基线 LSTM 和辅助头变体进行比较，并在包括稀疏奖励的多元元 RL 环境中评估。

实验结果

研究问题

RQ1是否可以利用训练任务的特权信息来学习有用的信念表示，从而加速元 RL 的适应？
RQ2将任务推断与控制分离是否提升样本效率，尤其在离策略学习中？
RQ3信息瓶颈正则化如何影响信念基元 RL 的泛化与学习速度？
RQ4该框架是否能够扩展到具有长期记忆和稀疏奖励的复杂连续控制任务？

主要发现

带任务描述的监督信念学习加速学习并在若干元 RL 环境中提升最终性能。
带信念流的离策略 SVG(0) 在简单任务上比 on-policy PPO 样本效率更高，IB 正则化降低了泛化差距。
信念网络代理在更困难的环境中优于辅助头和基线 LSTM 代理，包括稀疏奖励和需要长期记忆的任务。
带任务描述的监督通常比预测训练任务 ID 或无结构目标得到更好的后验估计。
在 Numpad 任务中，基于信念的方法通过在多轮中引导更广泛的探索，达到比 Thompson-sampling 类方法（如 PEARL）更快的适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。