[論文レビュー] MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
MimicPlay は低コストの人間プレイデータから3D認識的潜在計画子を学習し、少量のテレ操作デモンストレーションで訓練された低レベルの視覚運動コントローラを導くことで、14の実世界タスクに渡る長期的な操作を効率的かつ頑健に実現する。
Imitation learning from human demonstrations is a promising paradigm for teaching robots manipulation skills in the real world. However, learning complex long-horizon tasks often requires an unattainable amount of demonstrations. To reduce the high data requirement, we resort to human play data - video sequences of people freely interacting with the environment using their hands. Even with different morphologies, we hypothesize that human play data contain rich and salient information about physical interactions that can readily facilitate robot policy learning. Motivated by this, we introduce a hierarchical learning framework named MimicPlay that learns latent plans from human play data to guide low-level visuomotor control trained on a small number of teleoperated demonstrations. With systematic evaluations of 14 long-horizon manipulation tasks in the real world, we show that MimicPlay outperforms state-of-the-art imitation learning methods in task success rate, generalization ability, and robustness to disturbances. Code and videos are available at https://mimic-play.github.io
研究の動機と目的
- 長期的模倣学習のデータ要件を、安価な人間のプレイデータを活用して高レベルの計画を学習することで削減する。
- 計画と制御を潜在計画空間を介して分離し、低レベルの視覚運動ポリシーを導く。
- 人間とロボットの具現を3D対応の潜在計画と少数のロボットデモンストレーションで橋渡しする。
- 多様な実世界タスクにおいて、サンプル効率、一般化、頑健性の向上を示す。
提案手法
- 人間のプレイデータから未来の3D人間の手の軌跡を目標画像に基づいて予測するゴール条件付き潜在計画子を学習する。
- 軌道分布を多峰性に捉えるためにMLPベースのガウス混合モデルを用いる。
- 視覚ドメインギャップを減らすために人間とロボットの視覚エンコーディング間のKLダイバージェンスを最小化する。
- 潜在計画とセンサ信号を用いて行動をマッピングする、少量のテレオペデータで訓練されたプラン指向のマルチタスク低レベルコントローラ(トランスフォーマーベース)を訓練する。
- ロボットの動作を一-shot の映像(人間またはロボット)で促して、低レベルコントローラを導く潜在計画を生成する。
- 2段階の訓練を用いる: (1) 人間のプレイデータからの潜在計画子; (2) 潜在計画に条件付けされたロボットデモンストレーションで訓練された低レベルコントローラ。
実験結果
リサーチクエスチョン
- RQ1安価な人間のプレイデータは、長期的なロボット操作を導く堅牢で多峰性の潜在計画空間を学習できるか。
- RQ2計画と制御を分離することは、長期的なタスクにおけるエンドツーエンド手法よりサンプル効率と一般化を改善するか。
- RQ3少量のテレオペデータと潜在計画を組み合わせた場合、複数のタスクおよび未知のサブゴール構成に対してどう機能するか。
- RQ4人間の映像をプロンプトとして用いることは、潜在計画を介してロボットの操作の有効な目標となり得るか。
主な発見
| Method | Task-1 | Task-2 | Task-3 | ALL | Easy | Medium | Hard | ALL | |
|---|---|---|---|---|---|---|---|---|---|
| GC-BC (BC-trans) [52] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| LMP [5] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| Ours (0% human) | 0.2 | 0.3 | 0.1 | 0.2 | 0.20 | 0.2 | 0.1 | 0.0 | 0.10 |
| Ours | 0.6 | 0.7 | 0.4 | 0.5 | 0.55 | 0.7 | 0.5 | 0.2 | 0.47 |
- 人間のプレイデータから学習された潜在計画は長期的なタスクにおいて大幅な性能向上をもたらし、最小限のテレオペデータで実現する。
- 階層的な2段階学習は長期的な設定でエンドツーエンド手法を上回る。
- GMM は人間の軌跡を多峰性で捉えるのに不可欠であり、GMM を除去すると性能と一般化が低下する。
- 人間とロボットの視覚表現間のKLベースの整合はドメインギャップを縮小し、計画性を向上させる。
- より多くの人間プレイデータは未見のサブゴール構成やタスクへの一般化を改善し、人間の映像を使ったプロンプトはロボットのプロンプトと競合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。