QUICK REVIEW

[论文解读] Skew-Fit: State-Covering Self-Supervised Reinforcement Learning

Vitchyr H. Pong, Murtaza Dalal|arXiv (Cornell University)|Mar 8, 2019

Reinforcement Learning in Robotics参考文献 39被引用 66

一句话总结

Skew-Fit 提出一种对无监督强化学习的 principled objective，通过学习最大熵目标分布来最大化状态覆盖，并将其与面向目标的探索配对，从而获得可重复使用的策略以实现用户指定目标。

ABSTRACT

Autonomous agents that must exhibit flexible and broad capabilities will need to be equipped with large repertoires of skills. Defining each skill with a manually-designed reward function limits this repertoire and imposes a manual engineering burden. Self-supervised agents that set their own goals can automate this process, but designing appropriate goal setting objectives can be difficult, and often involves heuristic design decisions. In this paper, we propose a formal exploration objective for goal-reaching policies that maximizes state coverage. We show that this objective is equivalent to maximizing goal reaching performance together with the entropy of the goal distribution, where goals correspond to full state observations. To instantiate this principle, we present an algorithm called Skew-Fit for learning a maximum-entropy goal distributions. We prove that, under regularity conditions, Skew-Fit converges to a uniform distribution over the set of valid states, even when we do not know this set beforehand. Our experiments show that combining Skew-Fit for learning goal distributions with existing goal-reaching methods outperforms a variety of prior methods on open-sourced visual goal-reaching tasks. Moreover, we demonstrate that Skew-Fit enables a real-world robot to learn to open a door, entirely from scratch, from pixels, and without any manually-designed reward function.

研究动机与目标

在无需人工奖励设计的情况下，激发对广泛技能库的需求。
定义一个探索目标，在最大化状态覆盖的同时实现测试时的目标导向使用。
提出 Skew-Fit 以学习对有效状态的最大熵目标分布。
在正则性假设下，证明收成到均匀目标分布的保证。
在基于视觉的任务和现实世界的开门机器人上展示经验性收益。

提出的方法

将探索框定为最大化状态S与目标G之间的互信息 I(S;G)。
分解为通过目标条件强化学习来最小化 H(G|S)，并通过多样化的目标采样来最大化 H(G)。
引入 Skew-Fit：迭代地偏斜样本以趋向罕见状态，以训练一个生成模型 q_phi^G，使其逼近在状态空间 S 上的均匀分布。
用 q_phi^G(S) 来近似 p^S_phi(S)，以计算基于重要性采样的权重 w_t,alpha(S)=q_phi^G(S)^alpha，其中 alpha<0。
在更新 q_phi^G 时使用采样重要性重采样（SIR）以降低方差。
同时训练一个目标条件策略（如通过带有 beta-VAE 的 RIG），以最小化 H(G|S) 并对目标重新标记。
将 beta-VAE 重新用作 q_phi^G 的生成模型，并利用学到的表示来处理基于图像的目标。

实验结果

研究问题

RQ1Skew-Fit 是否能在迭代中可靠地增加目标分布的熵？
RQ2将 Skew-Fit 与目标条件策略耦合是否能提升基于视觉的强化学习任务的探索？
RQ3Skew-Fit 与先前的目标采样策略在基于视觉的连续控制任务中的表现有何差异？
RQ4Skew-Fit 是否可以在没有任务奖励的情况下扩展到现实世界的基于视觉的机器人操作？
RQ5在何种条件下 Skew-Fit 收敛到对有效状态的均匀分布？

主要发现

Skew-Fit 稳定地增加目标分布的状态空间熵，在一个二维导航示例中接近近似均匀覆盖。
在蚁群导航和迷宫任务中，Skew-Fit 在探索效率方面显著优于先前的目标采样方法。
在基于视觉的连续控制任务（Visual Door、Visual Pusher、Visual Pickup）以及现实世界的 Visual Door 任务上，Skew-Fit 优于基线，并在无任务奖励的情况下实现从像素开门。
Skew-Fit 能在无人工设计奖励的情况下从零开始学习，在大约五小时的训练内实现现实世界的开门能力。
该方法重复使用基于 beta-VAE 的表示（RIG）来同时训练目标条件策略和目标分布，利用重新标记和潜在空间规划。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。