QUICK REVIEW

[论文解读] SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

Marvin Zhang, Sharad Vikram|arXiv (Cornell University)|Aug 28, 2018

Reinforcement Learning in Robotics被引用 130

一句话总结

SOLAR 学习潜在表示和全局潜在线性二次系统 (LQS) 动力学，以实现从图像的数据高效的基于模型的强化学习，使用本地 TVLG 模型和 LQR-FLM 进行策略改进；在真实 Sawyer 机器人任务中展示了基于图像的高自主性。

ABSTRACT

Model-based reinforcement learning (RL) has proven to be a data efficient approach for learning control tasks but is difficult to utilize in domains with complex observations such as images. In this paper, we present a method for learning representations that are suitable for iterative model-based policy improvement, even when the underlying dynamical system has complex dynamics and image observations, in that these representations are optimized for inferring simple dynamics and cost models given data from the current policy. This enables a model-based RL method based on the linear-quadratic regulator (LQR) to be used for systems with image observations. We evaluate our approach on a range of robotics tasks, including manipulation with a real-world robotic arm directly from images. We find that our method produces substantially better final performance than other model-based RL methods while being significantly more efficient than model-free RL.

研究动机与目标

在具有高维图像观测的领域中推动数据高效的强化学习。
开发一种表示，使得能够准确建模局部线性动力学和二次代价。
将全局潜在 LQS 建模与局部后验推断结合以改进策略。
展示在基于图像的机器人任务中的迁移和稀疏奖励能力。

提出的方法

提出一个带潜在表示的随机最优控制框架（SOLAR），它联合学习潜在空间和全局线性高斯动力学先验。
使用卷积编码器/解码器将图像映射到潜在状态并重构观测。
采用对线性动力学（F, Sigma）的全局先验，并以矩阵正态-逆Wishart（MNIW）先验捕捉不同轨迹之间的动力学变异性。
通过基于数据的后验推断，在每个时间步推断局部时变线性动力学，作为对全局先验的经验贝叶斯更新。
应用变分自编码器风格的目标（ELBO），其中包含 p(o_t|s_t) 与 p(c_t|s_t,a_t) 项，对 q(F,Sigma) 加 KL 惩罚。
用 LQR-FLM（带 KL 约束的 LQR）更新策略，使轨迹分布尽量接近数据，降低建模偏差。

实验结果

研究问题

RQ1SOLAR 能否直接从高维图像观测中在不进行前向模型预测的情况下学习有效策略？
RQ2为局部线性二次建模优化的潜在表示是否能提高数据效率和最终性能，相较于标准的基于模型或无模型基线？
RQ3SOLAR 是否能在共享动力学族中将学习到的表示/模型转移到新任务，并处理稀疏奖励信号？
RQ4SOLAR 在真实世界的基于图像的机器人操作任务中的表现如何？

主要发现

SOLAR 在基于图像的控制任务中取得了显著优于其他基于模型的 RL 方法的最终性能。
在所测试的领域中，SOLAR 的数据效率显著高于基于模型的无模型 RL。
该方法在具有 64×64×3 图像观测的真实机器人操作上取得成功，包括使用 Sawyer 手臂进行叠块和推拉任务。
从多个任务学习的基础模型可以在同一分布内迁移到新任务，加速学习。
通过扩增图模型并使用人类提供的二元成功信号，该方法支持稀疏奖励情形。
与带学习模型的 MPC 和 VAE 基线相比，SOLAR 在若干基于图像的任务上显示出更优的长时程性能和数据效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。