QUICK REVIEW

[论文解读] Unsupervised Control Through Non-Parametric Discriminative Rewards

David Warde-Farley, Tom Van de Wiele|arXiv (Cornell University)|Nov 28, 2018

Reinforcement Learning in Robotics被引用 49

一句话总结

DISCERN 学会在无监督方式下达到视觉上指定的目标，通过同时训练一个目标条件策略和一个判别式的、非参数的奖励函数，该函数衡量环境中可控方面的相似性。

ABSTRACT

Learning to control an environment without hand-crafted rewards or expert data remains challenging and is at the frontier of reinforcement learning research. We present an unsupervised learning algorithm to train agents to achieve perceptually-specified goals using only a stream of observations and actions. Our agent simultaneously learns a goal-conditioned policy and a goal achievement reward function that measures how similar a state is to the goal state. This dual optimization leads to a co-operative game, giving rise to a learned reward function that reflects similarity in controllable aspects of the environment instead of distance in the space of observations. We demonstrate the efficacy of our agent to learn, in an unsupervised manner, to reach a diverse set of goals on three domains -- Atari, the DeepMind Control Suite and DeepMind Lab.

研究动机与目标

在没有手工设计的奖励或专家数据的情况下，激发对环境的掌握学习。
开发一个能够到达任意可到达目标状态的目标条件策略。
学习一个目标达成奖励函数，捕捉可控性相似性，而非原始视觉相似性。
提出一个非参数的、判别式的框架，用于联合学习策略和奖励。
在包括 Atari、DM Control Suite 和 DM Lab 的多样化视觉领域中展示无监督的目标达成。

提出的方法

引入 DISCERN，一个判别式嵌入奖励网络，它最大化目标与已达状态之间的互信息目标。
用变分分布 q_phi(s_g|s_T) 给出互信息的下界，并将目标限制在一个有限且不断演进的历史观测缓冲区 G 中。
训练一个目标条件策略 pi_theta(a|s;s_g)，其奖励 r(s;s_g) 来自于判别式嵌入，使用经验回放的 Q 学习。
对 log q_phi(s_g|s_T) 应用非线性奖励，转换到 [0,1]，具体为 max(0, ell_g)，其中 ell_g 是在学习嵌入空间中的余弦相似度。
通过非参数缓冲区表示目标，使得在训练进行中能够形成一个学习进展的课程（漂移的目标空间）。
结合后见经验回放以重新标记目标并稳定嵌入学习。

实验结果

研究问题

RQ1没有外部奖励或专家演示的情况下，无监督代理是否能够学习实现视觉上指定的目标？
RQ2将目标条件策略与判别式、非参数的目标奖励函数联合学习，是否能恢复环境中的可控因素，而不是原始视觉相似性？
RQ3在包含像素观测的多样域（Atari、DM Control Suite、DM Lab）中，DISCERN 在达到目标方面能达到到什么程度？
RQ4相比基线，非参数目标提议和基于嵌入的奖励如何影响学习进程和性能？
RQ5目标重新标记（HER）在训练稳定性和性能中的作用与影响如何？

主要发现

DISCERN 在 Atari、DM Control Suite 和 DM Lab 中无需外部奖励即可实现各种视觉指定的目标。
判别式嵌入奖励捕捉可控的相似性，使策略学习能够忽略干扰项和不可控对象。
逐维分析表明，DISCERN 即使在具有挑战性的任务中，也常常匹配主要的可控状态维度，超过依赖像素或基于 GAN 的奖励的基线。
基于嵌入空间余弦的非线性、截断奖励相较于原始对数概率奖励改善了稳定性和性能。
非参数目标缓冲区提供了自然演进的课程，使代理在探索中学习可控因素。
后见经验回放进一步稳定嵌入和策略学习，有助于获得时间上一致的表示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。