[论文解读] Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
SLAC 从图像输入学习一个随机潜在状态空间模型,并在学习到的潜在空间中训练一个离策略 Actor-Critic,以实现样本高效、性能卓越的连续控制。它在一个框架中将潜在序列建模与强化学习统一起来。
Deep reinforcement learning (RL) algorithms can use high-capacity deep networks to learn directly from image observations. However, these high-dimensional observation spaces present a number of challenges in practice, since the policy must now solve two problems: representation learning and task learning. In this work, we tackle these two problems separately, by explicitly learning latent representations that can accelerate reinforcement learning from images. We propose the stochastic latent actor-critic (SLAC) algorithm: a sample-efficient and high-performing RL algorithm for learning policies for complex continuous control tasks directly from high-dimensional image inputs. SLAC provides a novel and principled approach for unifying stochastic sequential models and RL into a single method, by learning a compact latent representation and then performing RL in the model's learned latent space. Our experimental evaluation demonstrates that our method outperforms both model-free and model-based alternatives in terms of final performance and sample efficiency, on a range of difficult image-based control tasks. Our code and videos of our results are available at our website.
研究动机与目标
- 通过从高维图像观测中显式学习潜在表示来解决深度强化学习中的表示学习瓶颈。
- 将表示学习与任务学习分离,以提高样本效率和稳定性。
- 将随机序列潜在变量建模与最大熵 RL 集成到一个可训练的框架中。
提出的方法
- 提出一个具有高斯先验和潜在动态的随机序列潜在变量模型,以形成潜在的POMDP 表示。
- 在潜在状态样本上训练一个马尔可夫 critic,在观测和动作的历史上训练一个 actor,形成 SLAC 算法。
- 推导一个基于 ELBO 的目标函数,将潜在空间学习与在最大熵 RL 设置中的策略优化耦合起来。
- 使用重参数化技巧从过滤分布中采样潜在状态以用于 critic 更新。
- 在学习到的潜在空间中进行 RL,而在运行时不需要显式的潜在状态访问,使得可以仅通过观测和动作执行。
- 在基于图像的连续控制任务中,将 SLAC 与无模型和有模型基线进行比较。
实验结果
研究问题
- RQ1从高维图像中学习一个随机潜在空间是否能够加速连续控制的样本高效 RL?
- RQ2在学习到的潜在空间中执行 RL 是否能获得与无模型和有模型方法竞争力的最终性能?
- RQ3将潜在变量建模与最大熵 RL 集成对基于图像的任务的稳定性和性能有怎样的影响?
主要发现
- 在基于图像的连续控制任务上,SLAC 的最终性能与最先进的无模型和有模型基线相比具有竞争力甚至更优。
- 通过利用潜在表示进行学习,SLAC 展示了改进的样本效率,接近基于状态的 SAC 的性能。
- 在 DeepMind Control Suite 任务上,SLAC 优于 PlaNet,并且与 DrQ 相当或更好,在基于图像的 OpenAI Gym 任务上表现出色。
- 消融研究表明,具有时间依赖性的完全随机序列潜在模型能带来最大的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。