[論文レビュー] Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models
SuSIE は事前学習済みの画像編集拡散モデルを用いて将来のサブゴールを生成し、低レベルのゴール条件付きポリシーでそれを達成する。これにより、ゼロショットの言語条件付きロボティックマニピュレーションを強い一般化能力と共に実現する。
If generalist robots are to operate in truly unstructured environments, they need to be able to recognize and reason about novel objects and scenarios. Such objects and scenarios might not be present in the robot's own training data. We propose SuSIE, a method that leverages an image-editing diffusion model to act as a high-level planner by proposing intermediate subgoals that a low-level controller can accomplish. Specifically, we finetune InstructPix2Pix on video data, consisting of both human videos and robot rollouts, such that it outputs hypothetical future "subgoal" observations given the robot's current observation and a language command. We also use the robot data to train a low-level goal-conditioned policy to act as the aforementioned low-level controller. We find that the high-level subgoal predictions can utilize Internet-scale pretraining and visual understanding to guide the low-level goal-conditioned policy, achieving significantly better generalization and precision than conventional language-conditioned policies. We achieve state-of-the-art results on the CALVIN benchmark, and also demonstrate robust generalization on real-world manipulation tasks, beating strong baselines that have access to privileged information or that utilize orders of magnitude more compute and training data. The project website can be found at http://rail-berkeley.github.io/susie .
研究の動機と目的
- 訓練中に見られない新規の物体や状況で動作できる汎用ロボットの実現を促す。
- 言語指示から高レベルのサブゴール計画を提供するために、事前学習済みの画像編集拡散モデルを活用する。
- ロボットデータを用いてサブゴールを達成する低レベルのゴール条件付きポリシーを訓練し、堅牢なゼロショット転移を可能にする。
- 実世界のマニピュレーションタスクと CALVIN ベンチマークで、一般化と精度の向上を実証する。
提案手法
- 現在の観測と言語コマンドを与えた場合に、仮想的な未来のサブゴール観測を出力するよう、言語ラベル付き動画データ上で Instruct Pix2Pix をファインチューニングする。
- 生成されたサブゴールを k_max ステップ以内に達成するよう、行動クローンを用いて低レベルのゴール条件付きポリシーを訓練する。
- テスト時に、サブゴールを反復的に生成し、低レベルポリシーで短いロールを実行する(サブゴールごとに k_test ステップ)。
- サブゴール生成の際、言語と画像入力の両方で拡散モデルを条件付けするために classifier-free ガイダンスを使用する。
- 頑健性のために時間的平均化を用いてアクションチャンクを予測する拡散ベースのポリシーを採用する。
- 高レベルのサブゴール合成と低レベル制御を分離することで、タスク特定データを必要としないゼロショット計画に依存する。
実験結果
リサーチクエスチョン
- RQ1見たことのない物体と言語コマンドを含む新規環境で、ゼロショット設定において SuSIE はタスクを解決できるか。
- RQ2サブゴールを導く計画は、サブゴールのない言語条件付きポリシーと比較して、精度と操作性を向上させるか。
- RQ3インターネット規模の事前学習とビデオ共学習がゼロショットの一般化にどれほど不可欠か。
- RQ4強力なベースラインと比べて、実世界のマニピュレーションタスクでの SuSIE の性能はどうか。
主な発見
- SuSIE は CALVIN でゼロショット性能の最先端を達成する(訓練 A–C から D をテスト)。
- SuSIE は 実世界のシーン全体で RT-2-X、UniPi、LCBC などのベースラインを上回り、特に新規の妨害要素や物体があるシーンで優れている。
- サブゴールの指針は低レベルの操作精度を向上させ、パプリカのような難しいタスクの成功を可能にする。
- インターネット事前学習とビデオデータでの共学習は、サブゴールの品質とゼロショット一般化を大幅に向上させる。
- Something-Something データを用いた共訓練は、見たことのないシーン(シーン B および C)での性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。