Skip to main content
QUICK REVIEW

[論文レビュー] One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

Tianhe Yu, Pieter Abbeel|arXiv (Cornell University)|Oct 25, 2018
Robot Manipulation and Learning参考文献 29被引用数 51
ひとこと要約

この論文は、メタ学習により primitives を学習・組み合わせ、単一の人間ビデオからプリミティブ visuomotor ポリシーを学習する方法を提示し、プリミティブの位相を予測して複数段階タスクを raw pixels からエンドツーエンドで分割・実行します。

ABSTRACT

We consider the problem of learning multi-stage vision-based tasks on a real robot from a single video of a human performing the task, while leveraging demonstration data of subtasks with other objects. This problem presents a number of major challenges. Video demonstrations without teleoperation are easy for humans to provide, but do not provide any direct supervision. Learning policies from raw pixels enables full generality but calls for large function approximators with many parameters to be learned. Finally, compound tasks can require impractical amounts of demonstration data, when treated as a monolithic skill. To address these challenges, we propose a method that learns both how to learn primitive behaviors from video demonstrations and how to dynamically compose these behaviors to perform multi-stage tasks by "watching" a human demonstrator. Our results on a simulated Sawyer robot and real PR2 robot illustrate our method for learning a variety of order fulfillment and kitchen serving tasks with novel objects and raw pixel inputs.

研究の動機と目的

  • 単一の人間ビデオからタスクラベルやセグメンテーションなしで、マルチステージの視覚ベースタスクを学習する動機づけ。
  • 他の物体の primitive 技能のデモンストレーションを活用して、新しい複合タスクへの高速適応を可能にする。
  • デモンストレーションをセグメントし、実行時に primitives を終了させる phase-predictor 機構を開発する。
  • 人間のデモンストレーションをロボットのポリシーへ翻訳するために、メタ学習とワンショット模倣を統合する。
  • 新しい物体と raw pixel 入力を用いた Sawyer のシミュレーションと実機の PR2 ロボットで、novel objects に対してアプローチをデモンストレーションする。

提案手法

  • 単一の人間デモンストレーションに teleoperated データを augment した形で primitive ポリシーを学習するために域適応型メタ模倣学習(DAML)を用いる。
  • 部分デモンストレーションから primitive の完成進捗を推定するために人間およびロボットの primitive-phase predictor を訓練する。
  • 人間 phase predictor を用いて新しい複合デモンストレーションを primitives に分解し、各 primitive をワンショット learner でポリシーへ翻訳する。
  • メタ学習されたパラメータを learned adaptation objective L_ψ を用いて適応させることで、end-to-end visuomotor ポリシーを可能にする。
  • primitives を逐次実行し、次の primitive へ遷移するタイミングを robot phase predictor で判定する。
  • メタ训练の間、オブジェクト間で primitive デモンストレーションを使用して、ビデオから primitives を模倣し、それらを新しいタスクへ組み合わせる方法を学ぶ。

実験結果

リサーチクエスチョン

  • RQ1単一の未セグメントの人間ビデオから、学習済み primitive を組み合わせてロボットが時系列に拡張されたタスクを実行できるか?
  • RQ2異なる物体の primitive デモンストレーションを活用することで、新しい複合タスクのワンショット模倣と組み合わせが改善されるか?
  • RQ3phase prediction はデモンストレーションを効果的にセグメントし、実行時の learned primitives の遷移を調整できるか?
  • RQ4DAML ベースのワンショット模倣は、エンドツーエンドの visuomotor 設定において他の手法と比較してどうか?
  • RQ5新規物体と raw pixel 入力をシミュレーションと実機の両方で扱えるスケーラブルな手法か?

主な発見

1 object2 objects
sliding window (no phase prediction)50.0%16.7%
LSTM one-shot learner (no DAML)0.0%0.0%
one-shot skill composition (ours)73.3%46.7%
  • ワンショットスキル構成(本手法)は、1つの物体で 73.3% の成功、2つの物体で 46.7% の成功を達成し、スライディングウィンドウベースラインおよび LSTM ベース学習者を上回った。
  • スライディングウィンドウ(フェーズ予測なし)は 1 object で 50.0%、2 objects で 16.7% の成功を達成;LSTM ワンショット学習者(DAMLなし)は両方の設定で 0.0%)。
  • PR2 キッチン給仕タスクでは、同一ターゲットでのワンショット技能構成法が 10/20、異なるターゲットで 7/20、対してスライディングウィンドウベースラインは両ケースとも 0/20。
  • phase prediction と DAML ベースのメタ学習の両方が、raw pixels から primitive を効果的にワンショットで構成するために不可欠であることを示す。
  • ほとんどの失敗は grasiping(把持)でのワンショット模倣の難しさに起因しており、今後のワンショット視覚模倣の改善が全体性能を高めると示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。