QUICK REVIEW

[论文解读] Deep Variational Reinforcement Learning for POMDPs

Maximilian Igl, Luisa Zintgraf|arXiv (Cornell University)|Jun 6, 2018

Reinforcement Learning in Robotics被引用 20

一句话总结

该论文提出深度变分强化学习（DVRL），一种通过变分自编码器学习环境生成模型并执行潜在状态近似推理来解决部分可观察马尔可夫决策过程（POMDPs）的方法。通过联合优化证据下界（ELBO）和策略梯度损失，DVRL 实现了随时间推移的信息聚合改进，在 Mountain Hike 和闪烁 Atari 游戏中优于基于 RNN 的基线方法，其优势源于信念状态推理而非仅依赖记忆。

ABSTRACT

Many real-world sequential decision making problems are partially observable by nature, and the environment model is typically unknown. Consequently, there is great need for reinforcement learning methods that can tackle such problems given only a stream of incomplete and noisy observations. In this paper, we propose deep variational reinforcement learning (DVRL), which introduces an inductive bias that allows an agent to learn a generative model of the environment and perform inference in that model to effectively aggregate the available information. We develop an n-step approximation to the evidence lower bound (ELBO), allowing the model to be trained jointly with the policy. This ensures that the latent state representation is suitable for the control task. In experiments on Mountain Hike and flickering Atari we show that our method outperforms previous approaches relying on recurrent neural networks to encode the past.

研究动机与目标

解决在缺乏完整状态信息的环境下进行序列决策的问题。
通过学习环境潜在动态的生成模型，改善随时间推移的信息聚合。
在不依赖转移或观测函数先验知识的情况下，实现在潜在状态上的有效推理。
通过同时优化 ELBO 和强化学习目标，联合训练生成模型与策略。
证明在复杂、高维且部分可观察的环境中，信念状态推理优于基于记忆的 RNN。

提出的方法

DVRL 使用变分自编码器学习环境的生成模型，包括潜在状态转移和观测似然。
采用 n 步近似证据下界（ELBO）以实现生成模型与策略的联合训练。
通过序贯蒙特卡洛（SMC）推理维护并更新基于粒子的信念状态，并通过重采样防止退化。
策略网络基于信念状态进行条件选择，实现基于推断的潜在状态分布的动作选择。
该方法结合强化学习（A2C 风格的 n 步策略梯度）与 ELBO 优化，支持通过共享反向传播实现端到端训练。
编码器网络处理观测-动作历史，生成潜在状态的信念分布，通过粒子集合显式建模不确定性。

实验结果

研究问题

RQ1与基于 RNN 的记忆网络相比，联合训练的生成模型是否能提升 POMDP 中的信息聚合？
RQ2通过变分推理引入信念状态推理是否能提升在部分可观察环境中的样本效率与性能？
RQ3ELBO 与策略梯度目标的联合优化在控制任务中如何影响潜在状态表征的质量？
RQ4粒子集合大小与重采样对 DVRL 性能的影响程度如何？
RQ5在具有高维观测和随机部分可观察性的环境中，DVRL 是否比基于 RNN 的方法泛化能力更强？

主要发现

在 Mountain Hike 任务中，DVRL 达到 254.00(±0.45) 的回报，显著优于 RNN 基线的 238.75(±7.85)。
在闪烁 Atari 游戏中，DVRL 在所有测试环境中均取得高于 RNN 的回报，包括在 Bowling 任务中达到 30.04(±0.18)，而 RNN 为 29.53(±0.23)。
消融实验表明，禁用 ELBO 目标（"No ELBO"）导致性能急剧下降，证实其对模型学习的必要性。
移除通过编码器的梯度反向传播（"No joint optim"）使性能下降，证明联合优化的重要性。
较短的反向传播长度对 RNN 的影响大于 DVRL，表明 DVRL 更依赖推理而非记忆，符合设计初衷。
使用超过一个粒子对性能至关重要，单粒子设置无法捕捉足够的信念不确定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。