QUICK REVIEW

[論文レビュー] Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets

Karol Hausman, Yevgen Chebotar|arXiv (Cornell University)|May 30, 2017

Robot Manipulation and Learning参考文献 27被引用数 38

ひとこと要約

本稿では、生成対抗ネットワーク（GAN）を用いて、構造のないラベルなしの模倣データから、同時にスキルのセグメンテーションとポリシーの模倣を学ぶマルチモーダルな模倣学習フレームワークを提案する。潜在的意図変数とGANベースの学習目的を導入することで、混合された専門家の模倣データを個別のスキルに分離し、すべてのスキルを模倣する1つのマルチモーダルポリシーを学習することができ、単一の行動に収束するユニモーダルGANベースラインを上回る性能を発揮した。

ABSTRACT

Imitation learning has traditionally been applied to learn a single task from demonstrations thereof. The requirement of structured and isolated demonstrations limits the scalability of imitation learning approaches as they are difficult to apply to real-world scenarios, where robots have to be able to execute a multitude of tasks. In this paper, we propose a multi-modal imitation learning framework that is able to segment and imitate skills from unlabelled and unstructured demonstrations by learning skill segmentation and imitation learning jointly. The extensive simulation results indicate that our method can efficiently separate the demonstrations into individual skills and learn to imitate them using a single multi-modal policy. The video of our experiments is available at http://sites.google.com/view/nips17intentiongan

研究の動機と目的

現実世界のシナリオで一般的な構造のないラベルなしの模倣データから模倣学習を可能にすること。
各スキルの分離済みまたは事前にラベル付けされたデータを必要とせず、スキルセグメンテーションとマルチモーダルポリシー学習を同時に学習すること。
混合された模倣データで学習する際、ユニモーダルポリシーが単一の行動に収束するという制限を克服すること。
階層的タスク学習やオプション発見を支援するスケーラブルなフレームワークを開発すること。

提案手法

本手法は、複数のスキルを1つのポリシーに統合してモデル化するため、潜在的意図変数を備えた条件付き生成対抗ネットワーク（cGAN）を用いる。
識別器は専門家の模倣データと生成された模倣データを区別するように学習され、生成器は意図変数に条件付けられた行動を生成するように学習される。
生成器が異なる意図に対応する多様な行動を生成するよう促すために、潜在的意図コストを導入し、モード崩壊を防止する。
生成器が異なる意図状態における専門家の模倣データを再現できるようにすることで、スキルセグメンテーションとポリシー模倣を同時に最適化する。
深層ニューラルネットワークを活用することで、Walker-2D や Humanoid などの高次元制御タスクにスケーラブルに対応する。
強化学習ベースのファインチューニング手法とは異なり、専門家の報酬関数へのアクセスを必要としない。

実験結果

リサーチクエスチョン

RQ1構造のないラベルなしの混合タスクの模倣データから、1つのポリシーが複数の明確に異なるスキルを模倣できるか？
RQ2マルチモーダルな模倣学習におけるモード崩壊を回避するために、スキルセグメンテーションとポリシー学習をどのように同時に最適化できるか？
RQ3提案手法は、1つの混合された模倣データシーケンスから意味的に明確に区別できるスキルを発見できるか？
RQ4潜在的意図コストの導入により、標準的なGANベースの模倣学習と比較して、模倣行動の多様性と正確性が向上するか？
RQ5学習されたマルチモーダルポリシーは、階層的強化学習におけるオプション発見に利用できるか？

主な発見

提案手法は、構造のない模倣データを明確なスキルにセグメンテーションし、すべてのスキルを模倣するマルチモーダルポリシーを学習し、Walker-2D環境では専門家ポリシーと同等の性能を達成した。
Walker-2Dタスクにおいて、潜在的意図コストを導入した手法は、前向き走行、ジャンプ、後退走行の3つの行動すべてを学習したが、ベースラインのGANは唯一のモード（ジャンプ）に収束した。
高次元のHumanoid環境では、前向き走行とバランスの維持を効果的に模倣したが、後退走行の性能は最適ではなかったが、依然としてユニモーダルベースラインを上回った。
本手法は、グリッパー・プッシュャ環境におけるつかみと押すというタスクで、実行中に意図を切り替えることでオプション発見の能力を示した。
タイムラプス可視化により、実行中に意図変数を変更すると適切な行動の切り替えが発生することが確認され、オプション発見の能力が妥当であることが裏付けられた。
定量的評価では、マルチモーダルポリシーが異なる意図状態において専門家レベルに近い報酬を達成しており、効果的なマルチタスク模倣が実現していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。