[論文レビュー] Manipulate-Anything: Automating Real-World Robots using Vision-Language Models
Manipulate-Anything は、特権情報や手作りスキルを必要とせず、多様な物体に対応できる現実世界のロボット操作のスケーラブルな自動デモ生成手法であり、ゼロショットのタスク達成を可能にし、堅牢な行動模倣ポリシーを訓練するデータを生み出します。
Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.
研究の動機と目的
- 特権情報や手作りのスキルを必要とせず、スケーラブルで多様なロボットデモデータを動機づける。
- 実世界の設定で、計画を立て、行動を生成し、サブゴールを検証するために視覚言語モデルを活用する。
- 成功率とデータ品質を向上させるために、エラー回復と多視点推論を可能にする。
- 現実世界と RLBench のシミュレーションの両方でゼロショットのタスク達成を示す。
- Manipulate-Anything のデータが、ヒトのデモと同等またはそれを上回る堅牢なポリシーを訓練できることを示す。
提案手法
- シーンと言語指示を視覚言語モデルに入力して、物体とサブゴールを識別する。
- VLMを介して検証条件を備えたサブゴールへタスクを分解する。
- サブゴール特有の行動を、6自由度エンドエフェクタポーズとして生成するか、文脈内学習を用いて新しいスキル用のコードを生成する。
- アクション生成を地固めし推論を改善するために、マルチビューのシーンをレンダリングする。
- VLMベースの検証器を用いてサブゴールの成功を確認し、必要に応じて再計画する。
- 生成デモンストレーションでPerActのビヘイビアクローンモデルを訓練し、人間データと比較して評価する。
実験結果
リサーチクエスチョン
- RQ1Manipulate-Anything は、特権情報なしでゼロショットで多様な現実世界タスクを解決できるか?
- RQ2Manipulate-Anything で生成されたデモが、ヒトのデモと同等か、それ以上の堅牢なビヘイビアクローンポリシーを訓練できるか?
- RQ3多視点推論は操作の成功と一般化を改善するか?
- RQ4ゼロショットおよび現実世界タスクにおいて、Manipulate-Anything は VoxPoser および CAP とどのように比較されるか?
主な発見
| 方法 | ブロックを置く | ジェンガを遊ぶ | ジャーを開ける | 箱を閉じる | 箱を開く | カップをつかむ | 傘を取る | マスタードを並べ替え | ワインを開ける | ランプを点ける | ナイフを置く | つかんで持ち上げる |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VoxPoser | 70.7 ± 2.31 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 26.7 ± 14.00 | - | - | - | - | - | - |
| CAP | 84.00 ± 16.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 14.67 ± 4.62 | - | - | - | - | - | - |
| MA (Ours) | 96.00 ± 4.00 | 77.33 ± 6.11 | 80.00 ± 4.00 | 33.33 ± 12.86 | 29.00 ± 10.07 | 82.67 ± 14.04 | - | - | - | - | - | - |
| VoxPoser | 33.33 ± 8.33 | 96.0 ± 6.93 | 8.00 ± 4.00 | 57.3 ± 12.22 | 92.00 ± 4.00 | 96.00 ± 0.00 | - | - | - | - | - | - |
| CAP | 4.00 ± 4.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 64.00 ± 6.93 | 14.67 ± 8.33 | 100.00 ± 0.00 | - | - | - | - | - | - |
| MA (Ours) | 61.33 ± 20.13 | 64.00 ± 6.93 | 42.00 ± 4.00 | 69.33 ± 6.11 | 52.00 ± 10.58 | 84.00 ± 6.93 | - | - | - | - | - | - |
- 現実世界5タスクと RLBench の12のシミュレーションタスク全体でゼロショットのタスク成功を達成し、シミュレーションタスクの12のうち9で VoxPoser を上回る。
- Manipulate-Anything によって生成されたデモは、ヒトのデモと同等またはそれを超えるパフォーマンスを示すビヘイビアクローンポリシーを可能にする。
- Policies trained on MA data perform similarly to human-data policies, with MA data often yielding lower action distribution distance to human demonstrations (lower Chamfer Distance).
- 現実世界の実験では、MA生成データはほとんどのタスクでゼロショットおよび人間データのベースラインと比べて競争力がある、または優れているポリシー性能を示す。
- 本手法はスケーラブルなデータ生成をサポートし、VoxPoser と比較して言語指示の変動への堅牢性を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。