Skip to main content
QUICK REVIEW

[論文レビュー] Third-Person Visual Imitation Learning via Decoupled Hierarchical Controller

Pratyusha Sharma, Deepak Pathak|arXiv (Cornell University)|Nov 21, 2019
Robot Manipulation and Learning被引用数 28
ひとこと要約

本稿では、第3者視点の視覚的模倣学習のための分離型階層的コントローラーを提案する。高レベルのゴール生成器が第3者視点の動画デモから最初の視点の部分ゴールを推論し、低レベルのコントローラーが生のピクセル観測値を用いてそのゴールに到達するための行動を実行する。このアプローチは、実世界のBaxterロボットにおいて、新しい物体や未確認の設定に対しても頑健な一般化を達成し、エンドツーエンドのベースラインと比較して模倣精度とサンプル効率の両面で優れている。

ABSTRACT

We study a generalized setup for learning from demonstration to build an agent that can manipulate novel objects in unseen scenarios by looking at only a single video of human demonstration from a third-person perspective. To accomplish this goal, our agent should not only learn to understand the intent of the demonstrated third-person video in its context but also perform the intended task in its environment configuration. Our central insight is to enforce this structure explicitly during learning by decoupling what to achieve (intended task) from how to perform it (controller). We propose a hierarchical setup where a high-level module learns to generate a series of first-person sub-goals conditioned on the third-person video demonstration, and a low-level controller predicts the actions to achieve those sub-goals. Our agent acts from raw image observations without any access to the full state information. We show results on a real robotic platform using Baxter for the manipulation tasks of pouring and placing objects in a box. Project video and code are at https://pathak22.github.io/hierarchical-imitation/

研究の動機と目的

  • 状態情報にアクセスできない状況で、1つの第3者視点の動画デモからのみ、ロボットが複雑な操作タスクを学習できるようにすること。
  • 人間の行動とゴールを第3者視点から最初の視点のロボットの視点に変換する課題に対処すること。
  • 高レベルのゴール推論と低レベルの行動制御を分離することで、新しい物体や未確認の設定への一般化を向上させること。
  • 複数のタスクにわたって1つの堅牢な低レベルコントローラーを共有することで、タスクごとのデータ要件を削減すること。

提案手法

  • 高レベルのゴール生成器は、条件付きGANベースのU-Netアーキテクチャを用い、第3者視点の人体デモフレームと現在のロボット観測値から最初の視点の視覚的部分ゴールを予測する。
  • ゴール生成器は、時系列に整合しないがペア化された人間の動画とロボット軌道データを用いて教師あり学習で訓練される。
  • 低レベルの逆制御器は、予測された部分ゴールと現在のロボット観測値を、ResNet-18バックボーン(ImageNet重みを微調整済み)を用いて関節角行動にマッピングする。
  • カメラやアームの振動に対処するために、ランダムクロッピングやジターリングを含むデータ拡張を用いて、低レベルコントローラーの頑健性を向上させる。
  • システムは生のピクセルからエンドツーエンドで動作し、真値の状態情報や手動で指定されたゴールが一切不要で、動画デモにのみ依存する。
  • 分離型設計により、低レベルコントローラーを複数のタスクにわたって共有でき、サンプル効率の向上と過学習の低減が可能になる。

実験結果

リサーチクエスチョン

  • RQ11つの第3者視点の動画デモからのみ学習した場合、ロボットは新しい物体や設定に対しても一般化できるか?
  • RQ2高レベルのゴール生成と低レベルの制御を分離することで、エンドツーエンド学習と比較して一般化性能がどのように向上するか?
  • RQ3再トレーニングなしで、1つの低レベルコントローラーが多様な操作タスクにどの程度一般化できるか?
  • RQ4条件付きGANを用いることで、第3者視点のデモから現実的でない最初の視点の部分ゴールを生成できるか?
  • RQ5状態情報や時系列モデリングにアクセスできない状況でも、安定的かつ低ジッタの軌道を達成できるか?

主な発見

  • 提案された分離型階層的コントローラーは、1つの第3者視点の動画デモのみを用いて、実世界のBaxterロボットのタスク(カップへの液体の注ぎ替え、ボックスへの物体の配置など)で成功した模倣を達成した。
  • 高レベルのゴール生成器は、視覚的に妥当で意味的に意味のある部分ゴールを生成し、低レベルコントローラーが意図した状態に高い精度で到達できるようにした。
  • 新しい物体の位置に一般化する際、シミュレーション上でのSawyerロボットで平均RMSEが6.09(±2.8)を達成し、高い頑健性を示した。
  • 特にゼロショット設定において、エンドツーエンドベースラインと比較して、未確認の物体の設定や新しいタスクへの一般化性能が向上した。
  • モジュラー設計により、低レベルコントローラーを複数のタスクに共有することで、サンプル効率の高い学習が可能になった。
  • アブレーションスタディの結果、特に注ぎ替えのような複雑なタスクにおいて、分離構造が共同学習よりも顕著に性能と安定性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。