QUICK REVIEW

[論文レビュー] Self-supervised Learning of Image Embedding for Continuous Control

Carlos Florensa, Jonas Degrave|arXiv (Cornell University)|Jan 3, 2019

Reinforcement Learning in Robotics参考文献 29被引用数 30

ひとこと要約

本論文は、報酬形状付けやタスク固有の教師信号を一切用いずに、生の視覚的観測から直接画像埋め込みとゴール到達方策を学習する自己教師型強化学習手法を提案する。ゴールを状態間の到達時間の最小化として定式化し、モデルフリーとモデルベース強化学習を統合する構造的Q関数を用いることで、シミュレートされたロボット環境においてタスク間で効果的なゼロショット一般化を達成する。

ABSTRACT

Operating directly from raw high dimensional sensory inputs like images is still a challenge for robotic control. Recently, Reinforcement Learning methods have been proposed to solve specific tasks end-to-end, from pixels to torques. However, these approaches assume the access to a specified reward which may require specialized instrumentation of the environment. Furthermore, the obtained policy and representations tend to be task specific and may not transfer well. In this work we investigate completely self-supervised learning of a general image embedding and control primitives, based on finding the shortest time to reach any state. We also introduce a new structure for the state-action value function that builds a connection between model-free and model-based methods, and improves the performance of the learning algorithm. We experimentally demonstrate these findings in three simulated robotic tasks.

研究の動機と目的

タスク固有の報酬や特徴工学を一切用いずに、生の画像観測から制御方策をエンドツーエンドで学習することを目的とする。
ユークリッド距離が状態間の最小ステップ数に対応する汎用的画像埋め込みを学習することを目的とする。
モデルフリーとモデルベース強化学習を統合する新規なQ関数アーキテクチャを開発することを目的とする。
自己教師的相互作用のみを用いて、訓練中に見未曾な状態遷移に対しても方策のゼロショット一般化を可能とすることを目的とする。
外部の監視なしに、移譲可能な表現と制御プリミティブをシミュレートされたロボットタスクで学習する可能性を実証することを目的とする。

提案手法

本手法は、ゴール到達問題を、過去の観測で再ラベル付けされた軌道に基づく自己教師的報酬を用いて、状態間の到達時間の最小化として定式化する。
モデルフリーのアルゴリズムにモデルベースのインダクティブバイアスを組み込むために、ゴール状態への価値を埋め込み距離の関数としてモデル化する構造的Q関数を導入する。
各軌道が到達可能なゴール数を最大化するように再ラベル付けする、オフポリシーの深層強化学習を用いる。
ニューラルネットワークが観測を、L2距離がステップ数での最短経路長を近似する共通の埋め込み空間に変換する。
現在の観測とゴール観測に条件付けられた方策により、訓練中に見られなかった新しいゴール状態へのゼロショット転送が可能になる。
訓練中の探索性と安定性を高めるために、最大エントロピー方策最適化（MPO）を活用する。

実験結果

リサーチクエスチョン

RQ1自己教師的環境相互作用と生の画像観測のみを用いて、任意の状態から任意の状態へ到達する方策を学習可能か？
RQ2自己教師的埋め込み空間を学習可能であり、埋め込み状態間のユークリッド距離が、一方から他方へ到達するための最小ステップ数に対応するか？
RQ3モデルベースのインダクティブバイアスを組み込んだ構造的Q関数は、真の報酬が入手不可であっても、モデルフリー強化学習のサンプル効率と最終的パフォーマンスを向上させるか？
RQ4学習された表現と方策は、訓練中に遭遇しなかった新しいゴール状態へ一般化可能か？
RQ5連続制御タスクにおけるこのような自己教師的アプローチの失敗モードは何か？そしてそれらはどのように緩和可能か？

主な発見

自己教師的手法は、状態間の距離が到達に必要な最小ステップ数に対応する状態埋め込みを効果的に学習した。これは、構造的Q関数が残りステップ数とともに指数関数的に減衰することによって裏付けられる。
提案された構造的Q関数は、真の報酬が入手不可であっても、標準的なモデルフリーベースラインと比較して学習速度と最終パフォーマンスを顕著に向上させた。
訓練中に見られなかった新しいゴール状態へ、方策がゼロショットで一般化可能であり、未訪問の状態へも到達可能である。
ウォール・ポイントマス環境では、埋め込み距離が残りステップ数とともに指数関数的に減少し、モデルが到達可能性の意味的な概念を学習していることが示された。
ゴール周辺の振動やU字型環境における遠方状態への到達困難は、速度情報の欠如と高次元状態空間における不十分な探索に起因する制限を示唆している。
非可逆的環境では手法が失敗するため、物体投げや変形を含む非可逆的ダイナミクスを含むタスクでは非対称距離測定が必要であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。