[論文レビュー] Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
論文は、LLM-guided データ生成パイプラインと6DoFロボットプリミティブ、および検証/リトライ機構を用いて、大量のラベル付きデータセットを作成し、それを蒸留して、言語条件付きの視覚-運動拡散ポリシーを多タスクで実現し、成功率とシミュレータ実機間の移行を改善することを示す。
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection procedure, while improving absolute success rates by 33.2% on average across five domains. Code, data, and additional qualitative results are available on https://www.cs.columbia.edu/~huy/scalingup/.
研究の動機と目的
- LLM-guidedタスク計画と6DoF探索プリミティブを用いて、言語ラベル付きロボットデータをスケールアップする。
- 推定成功関数と自動リトライによってデータ収集を堅牢化し、失敗から回復する。
- 収集した経験を、ディフュージョンモデルを用いて言語条件付きのマルチタスク視覚運動ポリシーに蒸留する。
- 常識的推論と道具の使用を必要とする長期的操作のための新しい18タスク・5ドメインのベンチマークを導入する。
- ドメインランダム化を通じた成功率の改善と実世界移行を実証する。
提案手法
- 言語ガイド付きデータ生成。LLMがタスクを再帰的にサブタスク(タスクツリー)へ分解し、それらを6DoF探索プリミティブへ grounding する。
- プランをロボットユーティリティ呼び出しにグラウンディングし、サンプリングベースのモーションプランニングおよびグラップ/配置サンプラーを含む。
- LLM推定の成功関数のコードスニペットを使用して軌道を検証しリトライ挙動を駆動。
- CLIP言語特徴・本体知覚履歴・2つのRGB視点を入力とする、言語条件付き拡散ポリシーへ成功軌跡を堅牢に蒸留する。
- 効率的な拡散ベースのポリシー推論を可能にするDDIMスケジューラの使用。
- MuJoCo上に構築された5ドメイン×18タスクのベンチマーク評価、長期的操作とドメイン一般化を評価。
実験結果
リサーチクエスチョン
- RQ1言語誘導データ生成は、多様な6DoF操作タスクの自律的タスク指向探索をスケールさせることができるか?
- RQ2言語条件付き拡散ポリシーは、成功ラベル付きデータから効果的にマルチタスク視覚-言語-運動ポリシーを学習できるか?
- RQ3検証とリトライ機構はデータ収集の頑健性と下流のポリシー性能を向上させるか?
- RQ4蒸留されたポリシーは、ドメインランダム化(Sim2Real)を介して現実世界へどれだけ移行できるか?
主な発見
- 蒸留されたポリシーは堅牢なリトライ挙動を学習し、5ドメイン全体で平均して絶対成功率を33.2%向上させた。
- Verify & Retry はドメイン全体の性能を向上させる。これなし(no-retry)では性能が著しく低下する可能性がある(例: メールボックスドメインで成功率0.0%)。
- 6DoF探索は複雑なジオメトリや機構部品を含む対象を扱うことを可能にし、蒸留用の多様なデータを提供する。
- ポリシーは5つの新規物体でSim2Real転送において約76%の成功率を達成する。
- LLMガイド付き計画と成功推定によるデータ生成は、平面アクションのベースラインを超えたタスク指向の探索を強化する。
- 言語条件付きの拡散ベースマルチタスクポリシーは、MLPベースデコーダーおよび非リトライのベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。