QUICK REVIEW

[論文レビュー] Unsupervised Curricula for Visual Meta-Reinforcement Learning

Allan Jabri, Kyle Hsu|arXiv (Cornell University)|Dec 9, 2019

Reinforcement Learning in Robotics被引用数 26

ひとこと要約

本稿では、メタ・リーダーの軌道分布をパrametric密度モデルでモデル化することで、視覚的タスクのカリキュラムを自動的に生成する、非教師付きメタ強化学習の手法CARMLを提案する。タスク分布とメタ強化学習の更新を交互に繰り返すことで、下流のタスクへの転移を促進し、ピクセルベースの環境でも手動で定義された報酬がなくても、監視付きメタ強化学習の高速化を実現する。

ABSTRACT

In principle, meta-reinforcement learning algorithms leverage experience across many tasks to learn fast reinforcement learning (RL) strategies that transfer to similar tasks. However, current meta-RL approaches rely on manually-defined distributions of training tasks, and hand-crafting these task distributions can be challenging and time-consuming. Can "useful" pre-training tasks be discovered in an unsupervised manner? We develop an unsupervised algorithm for inducing an adaptive meta-training task distribution, i.e. an automatic curriculum, by modeling unsupervised interaction in a visual environment. The task distribution is scaffolded by a parametric density model of the meta-learner's trajectory distribution. We formulate unsupervised meta-RL as information maximization between a latent task variable and the meta-learner's data distribution, and describe a practical instantiation which alternates between integration of recent experience into the task distribution and meta-learning of the updated tasks. Repeating this procedure leads to iterative reorganization such that the curriculum adapts as the meta-learner's data distribution shifts. In particular, we show how discriminative clustering for visual representation can support trajectory-level task acquisition and exploration in domains with pixel observations, avoiding pitfalls of alternatives. In experiments on vision-based navigation and manipulation domains, we show that the algorithm allows for unsupervised meta-learning that transfers to downstream tasks specified by hand-crafted reward functions and serves as pre-training for more efficient supervised meta-learning of test task distributions.

研究の動機と目的

メタ強化学習のためのタスク分布を手動で設計する課題に対処すること。これは、複雑な環境では時間と労力を要し、現実的ではない。
外生的報酬やタスク仕様なしに、視覚的環境で非教師付きのスキル習得と探索を可能にすること。
エージェントの経験に基づいて動的にタスクカリキュラムを再編成する閉ループを形成することで、スキル発見とメタ学習を共同で最適化すること。
判別的クラスタリングと生成的モデリングを用いて、高次元の視覚的観測にスケーラブルな非教師付きメタ強化学習を実現すること。
非教師付き事前学習が、下流の監視付きメタ強化学習の初期化として効果的であるかどうかを評価すること。

提案手法

本手法は変分EMフレームワークを用い、Eステップではメタ・リーダーの軌道データから得られるタスク分布を、判別的に学習された埋め込み空間におけるガウス・ミックスチャネル・モデル（GMM）で表現する。
Mステップでは、GMMからサンプリングされた報酬関数を用いて、現在のタスク分布上でメタ強化学習を実行し、メタポリシーを訓練する。
高次元の視覚空間におけるモード崩壊を回避するため、判別的と生成的モデルのハイブリッドを用い、学習されたスキルが識別可能かつ多様であることを保証する。
エージェントが学習を進めるに従い、最近の経験を再フィッティングすることで、GMMを定期的に再適合し、カリキュラムを繰り返し再編成することで、適応的タスク分布のシフトを実現する。
再帰的なメタポリシーと対照的表現学習の目的関数を活用することで、軌道レベルのタスク習得に適した視覚特徴の質を向上させる。
経験リプレイの管理と、カリキュラム適応中の深刻な忘却の緩和のため、リザボア・サンプリングを用いる。

実験結果

リサーチクエスチョン

RQ1手動で定義されたタスク分布なしに、視覚的環境におけるメタ強化学習を支援する自動生成カリキュラムが可能か？
RQ2スキル発見とメタ学習を共同で最適化することで、パイプライン型アプローチと比較して、下流タスクへの転移性がどのように向上するか？
RQ3非教師付きメタ強化学習が、ターゲットタスク分布におけるより効率的な監視付きメタ強化学習の初期化としてどの程度有効に機能するか？
RQ4非教師付きカリキュラムと下流タスクの意味論が一致しない場合、直接転移の限界は何か？
RQ5本手法は、高次元の視覚的観測にどの程度スケーリング可能か？また、タスク空間におけるモード崩壊を回避する仕組みは何か？

主な発見

CARMLは、明示的な報酬形状なしに、視覚ナビゲーションおよび操作の両分野における下流のゴール到達タスクへの転移を成功裏に実現する非教師付きメタ強化学習を可能にする。
本手法は、監視付きメタ強化学習のファインチューニングにおいて、収束が速くなることを示し、非教師付き事前学習が下流タスク分布の強力な初期化を提供することを実証した。
ViZDoomナビゲーション環境では、直接転移においてベースラインを上回ったが、タスク分布の不一致と視覚的複雑さの影響で性能が制限された。
Sawyer操作環境では、ViZDoomに比べて直接転移性能が弱く、視覚的豊かさが低く、非教師付きカリキュラムとテストタスクの意味論的ギャップが大きいことが原因と考えられる。
CARMLで学習されたメタポリシーは、監視付きメタ強化学習における加速学習を可能にし、ターゲットタスク分布への適応に必要なサンプル数を削減した。
アブレーションスタディにより、タスク分布における判別的クラスタリングと生成的モデリングの組み合わせが、モード崩壊の回避と多様なスキル習得を可能にする上で不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。