Skip to main content
QUICK REVIEW

[论文解读] VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Luisa Zintgraf, Kyriacos Shiarlis|arXiv (Cornell University)|Oct 18, 2019
Domain Adaptation and Few-Shot Learning参考文献 59被引用 62
一句话总结

VariBAD 元学习一个变分贝叶斯自适应深度强化学习框架,它能够推断任务嵌入以在未知环境中执行近似贝叶斯最优探索,从而实现在线适应和提升回报。

ABSTRACT

Trading off exploration and exploitation in an unknown environment is key to maximising expected return during learning. A Bayes-optimal policy, which does so optimally, conditions its actions not only on the environment state but on the agent's uncertainty about the environment. Computing a Bayes-optimal policy is however intractable for all but the smallest tasks. In this paper, we introduce variational Bayes-Adaptive Deep RL (variBAD), a way to meta-learn to perform approximate inference in an unknown environment, and incorporate task uncertainty directly during action selection. In a grid-world domain, we illustrate how variBAD performs structured online exploration as a function of task uncertainty. We further evaluate variBAD on MuJoCo domains widely used in meta-RL and show that it achieves higher online return than existing methods.

研究动机与目标

  • 促使在未知环境中进行探索-利用权衡,并通过元学习实现接近贝叶斯最优的行为。
  • 开发一种可行的方法,在没有特权任务信息的情况下,为深度 RL 近似实现贝叶斯最优探索。
  • 学习一个编码不同相关 MDP 的不确定性的任务嵌入潜在空间,并用它来对策略进行条件化。
  • 将变分推断与元学习结合,在任务不确定性下进行在线推断和行动选择。

提出的方法

  • 用一个捕捉 MDP 嵌入的低维随机潜在变量 m 来表示每个任务。
  • 使用变分自编码器在线从代理经验中推断后验 q_phi(m|tau_{:t})。
  • 训练解码器,基于当前状态和动作预测过去和未来的状态与奖励,以学习嵌入。
  • 将策略 pi_psi(a_t|s_t, q_phi(m|tau_{:t})) 以对 MDP 嵌入的推断后验为条件。
  • 优化一个联合目标,将 RL 损失与在线变分推断的 ELBO 项(Equation 10)结合。
  • 在实践中避免通过编码器对 RL 损失进行反向传播,以稳定训练并提高效率。

实验结果

研究问题

  • RQ1未经特权任务信息,学习到的任务潜在嵌入是否能在深度 RL 中实现贝叶斯自适应探索?
  • RQ2与现有元 RL 方法相比,基于 MDP 嵌入的元学习变分推断是否能实现接近贝叶斯最优的探索并获得更高的在线回报?
  • RQ3通过类似 VAE 的编码器进行任务不确定性的在线推断,是否能提升在简单网格世界和 MuJoCo 领域的性能?
  • RQ4在元训练和测试阶段,边推断任务特定嵌入的同时,在跨任务中共享学习到的奖励/转移模型,是否可行?

主要发现

  • VariBAD 在网格世界中的探索行为接近贝叶斯最优性能,优于后验采样。
  • 在 MuJoCo 连续控制任务中,VariBAD 在一次试跑内就能适应,在线回报高于如 RL^2 等竞争的元 RL 方法。
  • 该方法学习到一个有意义的任务嵌入潜在空间,在任务识别后集中(方差下降,均值稳定)。
  • 该方法展示了由推断的任务不确定性驱动的有结构的在线探索,在某些设定下超越了依赖训练时特权任务信息的基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。