[论文解读] Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
SLAC 从高维观测中学习一个随机潜在模型,然后在潜在空间中执行强化学习,在图像上实现样本高效、性能出色的连续控制。
Deep reinforcement learning (RL) algorithms can use high-capacity deep networks to learn directly from image observations. However, these high-dimensional observation spaces present a number of challenges in practice, since the policy must now solve two problems: representation learning and task learning. In this work, we tackle these two problems separately, by explicitly learning latent representations that can accelerate reinforcement learning from images. We propose the stochastic latent actor-critic (SLAC) algorithm: a sample-efficient and high-performing RL algorithm for learning policies for complex continuous control tasks directly from high-dimensional image inputs. SLAC provides a novel and principled approach for unifying stochastic sequential models and RL into a single method, by learning a compact latent representation and then performing RL in the model's learned latent space. Our experimental evaluation demonstrates that our method outperforms both model-free and model-based alternatives in terms of final performance and sample efficiency, on a range of difficult image-based control tasks. Our code and videos of our results are available at our website.
研究动机与目标
- 通过将表示学习与任务学习分离,解决基于图像的强化学习中的表示学习瓶颈。
- 学习环境的潜在序列模型,以为强化学习提供有信息的潜在状态。
- 直接在观察与动作的历史记录上训练策略,同时使用潜在状态作为评论家的输入。
- 在具有挑战性的基于图像的控制任务上证明样本效率高、最终性能强。
提出的方法
- 提出一个带高斯先验和潜在动力学的随机序列潜在变量模型,用以从图像观测表示部分可观测马尔可夫过程(POMDPs)。
- 训练一个摊销变分推理模型,从观测和动作序列中学习潜在状态。
- 将该潜在模型与最大熵演员-评论家强化学习目标结合起来,使用潜在状态样本作为评论家输入,使用观察/动作历史作为演员。
- 将学习目标表述为一个联合ELBO,包含模型目标项和策略目标项,使表示学习和控制可同时进行。
- 通过重参数化从滤波分布采样潜在状态,并使用双评论家的软Q学习来稳定训练。
- 在 DeepMind Control Suite 和 OpenAI Gym 的基于图像的连续控制基准上评估 SLAC。
实验结果
研究问题
- RQ1从图像观测中学习的随机潜在表示是否能加速连续控制任务中的强化学习?
- RQ2将表示学习(通过潜在变量模型)与策略学习分开,是否相比无模型和基于模型的基线提高样本效率和最终性能?
- RQ3在潜在空间中执行强化学习,同时演员基于观察和行动历史进行决策的做法对部分可观测性是否鲁棒?
- RQ4在潜在动力学的变分ELBO框架下,控制即推断的视角在强化学习中的表现如何?
- RQ5潜在模型中的哪种结构选择(时间相关性、随机性)对性能影响最大?
主要发现
- 与无模型和基于模型的基线相比,SLAC 在具有挑战性的基于图像的连续控制任务上实现了具有竞争力甚至优越的最终性能。
- 潜在空间方法在保持接近无模型强化学习的强大渐近性能的同时,提供了更高的样本效率。
- 具有时间依赖性的完全随机序列潜在模型在RL的表示学习中优于非序列或确定性变体。
- 使用观察与动作历史作为演员输入,同时在潜在状态样本上训练批评家,带来稳定有效的学习。
- SLAC 在基于图像的基准测试上显著超越DVRL,并达到或超过后续方法的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。