QUICK REVIEW

[论文解读] Self-supervised Learning of Image Embedding for Continuous Control

Carlos Florensa, Jonas Degrave|arXiv (Cornell University)|Jan 3, 2019

Reinforcement Learning in Robotics参考文献 29被引用 30

一句话总结

本文提出了一种自监督强化学习方法，直接从原始视觉观测中学习图像嵌入和目标到达策略，无需任何奖励塑形或任务特定监督。通过将目标定义为最小化状态间的时间到达距离，并使用将无模型强化学习与基于模型强化学习相连接的结构化Q函数，该方法在模拟机器人环境中实现了跨任务的有效零样本泛化。

ABSTRACT

Operating directly from raw high dimensional sensory inputs like images is still a challenge for robotic control. Recently, Reinforcement Learning methods have been proposed to solve specific tasks end-to-end, from pixels to torques. However, these approaches assume the access to a specified reward which may require specialized instrumentation of the environment. Furthermore, the obtained policy and representations tend to be task specific and may not transfer well. In this work we investigate completely self-supervised learning of a general image embedding and control primitives, based on finding the shortest time to reach any state. We also introduce a new structure for the state-action value function that builds a connection between model-free and model-based methods, and improves the performance of the learning algorithm. We experimentally demonstrate these findings in three simulated robotic tasks.

研究动机与目标

实现从原始图像观测端到端学习控制策略，无需任务特定奖励或工程特征。
学习一种通用图像嵌入，使得欧氏距离对应于状态间最小时间步数。
开发一种新型Q函数架构，弥合无模型与基于模型强化学习之间的差距。
仅通过自监督交互，实现策略对未见状态转移的零样本泛化。
证明在模拟机器人任务中，无需外部监督即可学习可迁移的表征与控制基元的可行性。

提出的方法

该方法将目标到达问题表述为最小化状态间的时间到达距离，使用基于过去观测重标记轨迹的自监督奖励。
提出一种结构化Q函数，将到达目标状态的值建模为嵌入距离的函数，从而在无模型算法中有效编码基于模型的归纳偏置。
该算法使用基于离策略的深度强化学习与目标重标记，其中每条轨迹均被重标记以最大化可到达目标的数量。
一个神经网络将观测编码到共享嵌入空间中，其中L2距离近似于以步数表示的最短路径长度。
策略基于当前观测和目标观测进行条件化，从而实现对训练期间未见过的新目标状态的零样本迁移。
该方法利用最大熵策略优化（MPO）以在训练期间促进探索与稳定性。

实验结果

研究问题

RQ1是否可以仅通过与环境的自监督交互和原始图像观测，训练出能够从任一状态到达任一其他状态的策略？
RQ2是否可以学习一种自监督嵌入空间，使得嵌入状态之间的欧氏距离对应于从一个状态到达另一个状态所需的最少时间步数？
RQ3是否一种整合了基于模型归纳偏置的结构化Q函数能够提升无模型强化学习中的样本效率与最终性能？
RQ4所学习的表征与策略是否能泛化到训练期间未遇到的新目标状态？
RQ5此类自监督方法在连续控制任务中的失败模式是什么，以及如何缓解？

主要发现

自监督方法成功学习到一种状态嵌入，其中状态间距离与从一个状态到达另一个状态所需的最少时间步数相关，这由结构化Q函数随剩余时间步数的指数衰减所证实。
所提出的结构化Q函数相比标准无模型基线显著提升了学习速度与最终性能，即使在没有真实奖励的情况下亦然。
策略可泛化到训练期间未见的新目标状态，实现了对先前未访问状态的零样本迁移。
在墙形点质量环境中，基于嵌入的距离随剩余时间步数呈指数衰减，表明模型学习到了有意义的可达性概念。
在U形环境中，目标附近的振荡以及远距离状态难以到达的现象，表明其局限性与缺乏速度信息及高维状态空间中探索不足有关。
该方法在非可逆环境中失效，表明涉及不可逆动力学（如投掷物体或形变）的任务需要非对称距离度量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。