QUICK REVIEW

[論文レビュー] Skew-Fit: State-Covering Self-Supervised Reinforcement Learning

Vitchyr H. Pong, Murtaza Dalal|arXiv (Cornell University)|Mar 8, 2019

Reinforcement Learning in Robotics参考文献 39被引用数 66

ひとこと要約

Skew-Fit は、最大エントロピーの目標分布を学習して状態カバレッジを最大化することで、教師なし強化学習の原則的な目的を提案し、それを目標指向の探索と組み合わせて、ユーザー指定の目標を達成するための再利用可能なポリシーを生み出す。

ABSTRACT

Autonomous agents that must exhibit flexible and broad capabilities will need to be equipped with large repertoires of skills. Defining each skill with a manually-designed reward function limits this repertoire and imposes a manual engineering burden. Self-supervised agents that set their own goals can automate this process, but designing appropriate goal setting objectives can be difficult, and often involves heuristic design decisions. In this paper, we propose a formal exploration objective for goal-reaching policies that maximizes state coverage. We show that this objective is equivalent to maximizing goal reaching performance together with the entropy of the goal distribution, where goals correspond to full state observations. To instantiate this principle, we present an algorithm called Skew-Fit for learning a maximum-entropy goal distributions. We prove that, under regularity conditions, Skew-Fit converges to a uniform distribution over the set of valid states, even when we do not know this set beforehand. Our experiments show that combining Skew-Fit for learning goal distributions with existing goal-reaching methods outperforms a variety of prior methods on open-sourced visual goal-reaching tasks. Moreover, we demonstrate that Skew-Fit enables a real-world robot to learn to open a door, entirely from scratch, from pixels, and without any manually-designed reward function.

研究の動機と目的

手動で報酬を設計せずに幅広いスキルレパートリーの必要性を喚起する。
状態カバレッジを最大化しつつ、テスト時に目標指向の利用を可能にする探索目的を定義する。
Skew-Fit を提案し、有効な状態上で最大エントロピーの目標分布を学習させる。
正則性の仮定の下で uniform な目標分布への収束保証を示す。
視覚ベースのタスクと現実世界のドア開閉ロボットで経験的な利得を示す。

提案手法

探索を、状態 S と目標 G の間の相互情報 I(S;G) を最大化することとして定義する。
ゴール条件付きRL による H(G|S) を最小化し、多様なゴールサンプリングによる H(G) を最大化する形に分解する。
Skew-Fit を導入し、希少な状態へサンプルを反復的に歪ませて、S 全体に一様分布に近づく生成モデル q_phi^G を訓練する。
p^S_phi(S) を q_phi^G(S) で近似して、重要サンプリングに基づく重み w_t,alpha(S)=q_phi^G(S)^alpha（α<0）を計算する。
q_phi^G を更新する際の分散を減らすためにサンプリング重要リサンプリング(SIR) を用いる。
H(G|S) を最小化するためのゴール条件付きポリシーを同時訓練（例: beta-VAE を用いた RIG）し、目標のリラベリングを行う。
beta-VAE を q_phi^G の生成モデルとして再利用し、画像ベースのゴールに対する学習表現を活用する。

実験結果

リサーチクエスチョン

RQ1Skew-Fit は反復を重ねるにつれて目標分布のエントロピーを信頼性高く増加させるか。
RQ2Skew-Fit をゴール条件付きポリシーと結合させると、視覚ベースのRLタスクにおける探索が改善されるか。
RQ3視覚ベースの連続制御タスクにおける従来のゴールサンプリング戦略と Skew-Fit はどう比較されるか。
RQ4タスク報酬なしで、現実世界の視覚ベースロボット操作に Skew-Fit をスケールさせることができるか。
RQ5どのような条件下で Skew-Fit は有効な状態の一様分布へ収束するか。

主な発見

Skew-Fit はゴール分布の状態空間エントロピーを着実に増加させ、2D ナビゲーションの例でほぼ一様なカバレッジに近づく。
アリのナビゲーションと迷路タスクでは、Skew-Fit が探索効率で従来のゴールサンプリング手法を顕著に上回る。
視覚ベースの連続制御タスク（Visual Door、Visual Pusher、Visual Pickup）と現実世界の Visual Door タスクで、Skew-Fit はベースラインを上回り、タスク報酬なしでピクセルからドアを開くことを可能にする。
Skew-Fit は手動設計報酬なしでゼロから学習を可能にし、約5時間の訓練で現実世界のドア開け能力を達成する。
本手法は beta-VAE ベースの表現（RIG）を再利用して、ゴール条件付きポリシーとゴール分布の両方を訓練し、リラベリングと潜在空間計画を活用する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。