QUICK REVIEW

[论文解读] Visual Reinforcement Learning with Imagined Goals

Ashvin Nair, Vitchyr H. Pong|arXiv (Cornell University)|Jul 12, 2018

Reinforcement Learning in Robotics参考文献 30被引用 181

一句话总结

本文提出了 RIG，一种通过将离策略强化学习与无监督的潜在表征、设想目标以及回溯式目标重新标记相结合，从原始图像中学习目标条件策略的框架，以实现用户指定的图像目标。

ABSTRACT

For an autonomous agent to fulfill a wide range of user-specified goals at test time, it must be able to learn broadly applicable and general-purpose skill repertoires. Furthermore, to provide the requisite level of generality, these skills must handle raw sensory input such as images. In this paper, we propose an algorithm that acquires such general-purpose skills by combining unsupervised representation learning and reinforcement learning of goal-conditioned policies. Since the particular goals that might be required at test-time are not known in advance, the agent performs a self-supervised "practice" phase where it imagines goals and attempts to achieve them. We learn a visual representation with three distinct purposes: sampling goals for self-supervised practice, providing a structured transformation of raw sensory inputs, and computing a reward signal for goal reaching. We also propose a retroactive goal relabeling scheme to further improve the sample-efficiency of our method. Our off-policy algorithm is efficient enough to learn policies that operate on raw image observations and goals for a real-world robotic system, and substantially outperforms prior techniques.

研究动机与目标

开发一个通用的、目标条件的强化学习框架，能够在原始图像观测上工作，而不需要真实奖励或状态的地面真值。
学习一个结构化的潜在表示，以促进目标采样、状态编码和奖励塑形。
实现自监督的目标设想与重新标记，以在训练期间提高样本效率。
展示可扩展性，适用于对象数量可变的任务以及真实世界的机器人操控任务。

提出的方法

训练一个 beta-VAE 以学习观测和目标的潜在表示。
将状态和目标嵌入到潜在空间，并训练一个目标条件 Q 函数 Q(z, a, z_g) 与潜在空间策略 pi(z, z_g)。
使用潜在距离作为塑形奖励 r = -||z - z_g||，在没有真实状态奖励的情况下实现基于视觉的控制。
从 VAE 先验中采样目标以驱动自监督练习，并对经历进行重新标记（潜在目标重标记）以提高数据效率。
应用离策略的 TD3 风格学习；在训练过程中可选地对 VAE 进行微调以获得更好的表示对齐。
采用先验采样和未来状态重标记的混合策略，以最大化数据效率。

实验结果

研究问题

RQ1是否可以直接从图像中学习基于视觉的目标条件策略，而不需要地面真值状态或奖励信号？
RQ2潜在表示如何影响目标采样、奖励塑形以及视觉强化学习中的样本效率？
RQ3该方法是否可扩展到对象数量可变的任务并实现对现实世界机器人操控的迁移？
RQ4不同的目标重新标记策略对学习效率有何影响？

主要发现

在模拟的基于图像的任务上，RIG 明显优于以往的基于视觉的目标条件强化学习方法。
潜在空间奖励（潜在空间距离）提供比像素 MSE 或马氏距离更良好形状的信号用于学习。
使用潜在目标样本与未来状态策略混合的重标记实现最佳样本效率。
该方法在不改变输入表示的情况下处理对象数量可变的场景。
在视觉到达与推挪任务上，RIG 在真实世界的 Sawyer 机器人上用适量数据实现了有竞争力的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。