QUICK REVIEW

[論文レビュー] Dynamics-Aware Unsupervised Discovery of Skills

Archit Sharma, Shixiang Gu|arXiv (Cornell University)|Jul 2, 2019

Reinforcement Learning in Robotics参考文献 68被引用数 75

ひとこと要約

DADS は教師なしで連続的かつ予測可能なスキルの集合を発見し、それらの学習済みダイナミクスをゼロショットのモデルベース計画に活用して、強力なベースラインを上回る。

ABSTRACT

Conventionally, model-based reinforcement learning (MBRL) aims to learn a global model for the dynamics of the environment. A good model can potentially enable planning algorithms to generate a large variety of behaviors and solve diverse tasks. However, learning an accurate model for complex dynamical systems is difficult, and even then, the model might not generalize well outside the distribution of states on which it was trained. In this work, we combine model-based learning with model-free learning of primitives that make model-based planning easy. To that end, we aim to answer the question: how can we discover skills whose outcomes are easy to predict? We propose an unsupervised learning algorithm, Dynamics-Aware Discovery of Skills (DADS), which simultaneously discovers predictable behaviors and learns their dynamics. Our method can leverage continuous skill spaces, theoretically, allowing us to learn infinitely many behaviors even for high-dimensional state-spaces. We demonstrate that zero-shot planning in the learned latent space significantly outperforms standard MBRL and model-free goal-conditioned RL, can handle sparse-reward tasks, and substantially improves over prior hierarchical RL methods for unsupervised skill discovery.

研究の動機と目的

外部報酬なしに多様で予測可能なスキルの学習を促進して、計画を容易にする。
潜在空間での計画を実現する、スキル条件付きポリシーとスキル特異的遷移モデルを開発する。
連続的なスキル空間が、離散的なスキル集合よりも豊かで制御可能な挙動を可能にすることを示す。
学習済み潜在空間でモデルベースの方法を用いて計画することにより、ゼロショットタスク解決を実証する。

提案手法

I(s′; z | s) という相互情報量の目的を最大化して、多様でかつ予測可能なスキルを奨励する。
スキル条件付きポリシー π(a|s, z) とスキル条件付き遷移モデル qφ(s′|s, z) を学習する。
相互情報量の目的を最適化するために変分下限を適用し、KL発散項によってそれを緊密化する。
qφ の下での予測可能性と z に跨る多様性を促進する、扱いやすい内的報酬 r_z(s, a, s′) を計算する。
追加の学習なしで、潜在空間 Z における MPC を用いて学習済みスキルを構成し、下流タスクへ適用するモデルベース計画を行う。

実験結果

リサーチクエスチョン

RQ1教師なし学習のスキルは、予測し計画しやすい連続的でスケーラブルな潜在空間を生み出せるか？
RQ2スキルの潜在空間での計画は、高次元のダイナミクスを持つ下流タスクに対してゼロショット解を可能にするか？
RQ3連続的なスキルは、離散的なスキルよりも階層的な組み合わせと長期計画に適しているか？
RQ4スキルの予測可能性は、挙動の分散と下流の計画性能にどう影響するか？
RQ5ナビゲーションと locomotion タスクにおいて、DADS は標準的なモデルベースおよびゴール条件付き RL のベースラインとどのように比較されるか？

主な発見

DADS は MuJoCo ロコモーションタスクで、報酬なしで多様かつ分散の小さい予測可能なスキルの集合を学習する。
連続的な潜在空間は、離散的なスキルセットより滑らかで補間しやすい挙動を生む。
学習済みスキルダイナミクスを MPC を用いて計画することで、ゼロショットタスク解決を実現し、最先端のモデルベースRLベースラインを上回る。
DADS スキルを用いた MPPI による階層制御は、DIAYN ベースの階層化とゴール条件付き RL と比較して下流のナビゲーションタスクを改善する。
連続プリミティブ変種は、階層的構成と下流タスク性能において離散的なものより優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。