QUICK REVIEW

[论文解读] Meta Reinforcement Learning with Latent Variable Gaussian Processes

Steindór Sæmundsson, Katja Hofmann|arXiv (Cornell University)|Mar 20, 2018

Gaussian Processes and Bayesian Inference参考文献 34被引用 105

一句话总结

本文提出一种基于模型的元强化学习方法，使用潜变量高斯过程来捕获任务变异，从而实现在线潜变量推断和MPC规划，在数据效率和对新任务的迁移方面取得显著效果。

ABSTRACT

Learning from small data sets is critical in many practical applications where data collection is time consuming or expensive, e.g., robotics, animal experiments or drug design. Meta learning is one way to increase the data efficiency of learning algorithms by generalizing learned concepts from a set of training tasks to unseen, but related, tasks. Often, this relationship between tasks is hard coded or relies in some other way on human expertise. In this paper, we frame meta learning as a hierarchical latent variable model and infer the relationship between tasks automatically from data. We apply our framework in a model-based reinforcement learning setting and show that our meta-learning model effectively generalizes to novel tasks by identifying how new tasks relate to prior ones from minimal data. This results in up to a 60% reduction in the average interaction time needed to solve tasks compared to strong baselines.

研究动机与目标

将元学习框架置于概率化、基于模型的 RL 设置中，以在相关动力系统间转移知识。
学习一个以任务规格潜在表示为条件的动力学模型。
使用变分推断和稀疏 GP 方法以实现在线潜变量适应与数据高效的规划。
在推车-杆和双摆任务上展示迁移与少-shot 学习的有效性。

提出的方法

用以潜在任务变量 h_p 条件的高斯过程来建模动力学，形成 x_{t+1} = f(x_t, c_t, h_p) + ε，其中 ε ~ N(0,E).
采用MPC通过对状态分布的高斯近似来最小化一个期望的有限时域代价来规划控制序列。
通过从 p(h_p) 抽取的潜在嵌入 h_p 来表示全局动力学，并从轨迹中的数据在线推断 h_p。
使用带稀疏GP（诱导点）的变分推断来近似 GP f 与潜在变量 H 的后验，使在多任务上的学习具可扩展性。
使用分层贝叶斯模型训练，优化包含 q(H) 与 q(U) 的证据下界（ELBO）。
采用小批量随机优化（Adam）及在线潜变量更新实现实时适应。

实验结果

研究问题

RQ1将 GP 条件化到潜在变量是否能将全局动力学与任务特异动力学解耦？
RQ2潜在嵌入能否泛化到未见任务配置以提升预测性能？
RQ3ML-GP 方法是否在相关任务的基于模型的 RL 中提升数据效率？
RQ4推断出的潜在嵌入在多大程度上反映有意义的任务结构（如摆系统的长度和质量）？

主要发现

ML-GP 在未见任务上的预测 RMSE 与 NLL 上优于稀疏 GP 基线和标准 GP。
学习到的潜在嵌入将任务特异变异与全局动力学解耦，潜在空间具有可解释的结构。
在数据高效的 RL 中，ML-GP 比独立训练的模型(SGP-I)学习更快、互动时间更短，并在适应新动力学方面优于 SGP-ML。
在推车-杆和双摆任务中，ML-GP 降低总训练与测试时间，显示出更优的迁移/少-shot 性能。
从有限观测中推断的潜在嵌入对预测未来状态和指导MPC具有信息量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。