Skip to main content
QUICK REVIEW

[論文レビュー] Variational Option Discovery Algorithms

Joshua Achiam, Harrison Edwards|arXiv (Cornell University)|Jul 26, 2018
Reinforcement Learning in Robotics参考文献 18被引用数 82
ひとこと要約

本論文は、軌跡からデコードする変分的オプション発見手法 VALOR を導入し、数百の多様な挙動をスケーラブルに学習するカリキュラム戦略を提案する。さらに VALOR を VIC および DIAYN と比較し、下流タスクへの適用可能性と限界を検討する。

ABSTRACT

We explore methods for option discovery based on variational inference and make two algorithmic contributions. First: we highlight a tight connection between variational option discovery methods and variational autoencoders, and introduce Variational Autoencoding Learning of Options by Reinforcement (VALOR), a new method derived from the connection. In VALOR, the policy encodes contexts from a noise distribution into trajectories, and the decoder recovers the contexts from the complete trajectories. Second: we propose a curriculum learning approach where the number of contexts seen by the agent increases whenever the agent's performance is strong enough (as measured by the decoder) on the current set of contexts. We show that this simple trick stabilizes training for VALOR and prior variational option discovery methods, allowing a single agent to learn many more modes of behavior than it could with a fixed context distribution. Finally, we investigate other topics related to variational option discovery, including fundamental limitations of the general approach and the applicability of learned options to downstream tasks.

研究の動機と目的

  • 外部報酬なしでオプション(スキル)を発見するための変分推論手法を調査する。
  • 変分オプション発見と変分オートエンコーダの関係を確立する。
  • VALOR、軌跡デコードベースのオプション発見手法を提案する。
  • 学習を安定化・加速させるためのカリキュラム学習を導入する。
  • 学習したオプションの多様性、定性的性質、および潜在的な下流の有用性を評価する。

提案手法

  • 軌道を介してポリシーで文脈cをエンコードし、軌跡からデコードすることで、オプション発見を変分目的の最大化として定式化する。
  • 目的がβ-VAEのような boundと整合し、VIC/DIAYNをVAEテンプレートに結びつけることを示す。
  • VALORを提案する。デコーダはアクションではなく完全な軌跡を観察し、軌跡のデルタから文脈をデコードするために双方向LSTMを用いる。
  • デコーダの性能が向上するにつれて文脈の数Kを徐々に増やすカリキュラムを実装する(閾値ベースの成長)。
  • カリキュラム有無で、ロコモーション環境(点質量、Half-Cheetah、Swimmer、Ant)におけるVALOR、VIC、DIAYNを比較する;再帰的ポリシーとポリシー勾配訓練を用いる。
  • 事前学習済み VALOR ポリシーを階層的 Ant-Maze タスクの下位レベルとして組み込むことで、下流タスクの可能性を探る。
Figure 1: Bidirectional LSTM architecture for VALOR decoder. Blue blocks are LSTM cells.
Figure 1: Bidirectional LSTM architecture for VALOR decoder. Blue blocks are LSTM cells.

実験結果

リサーチクエスチョン

  • RQ1外部報酬なしで多様なオプションを発見するために、変分推論の原理をどのように適用できるか?
  • RQ2変分オプション発見手法と変分オートエンコーダの関係はどうで、これが新しいアルゴリズムをどう導くか?
  • RQ3文脈の複雑さを順次拡張するカリキュラムはトレーニングを安定化し、何百ものモードの学習を可能にするか?
  • RQ4VALOR、VIC、DIAYN は、多様性・学習速度・定性的挙動の点で異なるロボティクス環境間でどう比較されるか?
  • RQ5学習したオプションは下流の階層制御タスクに有用か?

主な発見

  • VALOR は文脈を軌跡にエンコードし、軌跡から文脈をデコードすることで、さまざまな軌跡中心の挙動を促進する。
  • 文脈数を徐々に増やすカリキュラムは、VALOR、VIC、DIAYNの学習安定性と速度を向上させる。
  • 3つの手法はいずれも類似の全体的な性能で複数の移動モードを学習するが、VALORは軌跡中心のデコードのため定性的に異なる挙動を生み出す。
  • DIAYN はより密な報酬信号のため学習が速い傾向にある一方、VALOR は円運動のようなダイナミカルモードを強調する。
  • カリキュラムはより大きな文脈集合(例:最大64文脈)で習得を速くし、シード間でより頑健な結果を生み出す。
  • 手作り環境は自然な指の挙動を生み出す一方、高次元のヒューマノイド環境(Toddler)はより難しく、情報理論的目的だけの限界を浮き彫りにする。
  • 事前学習済み VALOR ポリシーは、階層的下流タスクの下位ポリシーとして有用であり、ゼロから学習したポリシーや非階層的なポリシーと同等に機能する。
(a) Final $x$ -coordinate in Cheetah.
(a) Final $x$ -coordinate in Cheetah.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。