[論文レビュー] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting
MOKA は、マークベースの視覚プロンプトを用いたビジョン-ランゲージモデルを用いて、2D キーポイントとウェイポイントを予測し、言語で記述されたタスクをオープンボキャブラリ操作設定で実行可能なロボット運動へと変換する。
Open-world generalization requires robotic systems to have a profound understanding of the physical world and the user command to solve diverse and complex tasks. While the recent advancement in vision-language models (VLMs) has offered unprecedented opportunities to solve open-world problems, how to leverage their capabilities to control robots remains a grand challenge. In this paper, we introduce Marking Open-world Keypoint Affordances (MOKA), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language instructions. Central to our approach is a compact point-based representation of affordance, which bridges the VLM's predictions on observed images and the robot's actions in the physical world. By prompting the pre-trained VLM, our approach utilizes the VLM's commonsense knowledge and concept understanding acquired from broad data sources to predict affordances and generate motions. To facilitate the VLM's reasoning in zero-shot and few-shot manners, we propose a visual prompting technique that annotates marks on images, converting affordance reasoning into a series of visual question-answering problems that are solvable by the VLM. We further explore methods to enhance performance with robot experiences collected by MOKA through in-context learning and policy distillation. We evaluate and analyze MOKA's performance on various table-top manipulation tasks including tool use, deformable body manipulation, and object rearrangement.
研究の動機と目的
- 自由形式の言語でタスクが記述されるオープンボキャブラリロボット操作の実現。
- VLM からの視覚予測を、コンパクトな点ベースのアフォーダンス表現を用いてロボット運動に橋渡しする。
- マークベースのプロンプトを用いたアフォーダンス推論を視覚的質問応答へ変換し、ゼロショットとブートストラップ学習を支援。
- オープンエンドな目標を伴うツール使用、変形可能物体の取り扱い、物体の再配置といったタスクカバレッジを示す。
提案手法
- キー点(把持、機能、ターゲット)と操作ウェイポイントを含む点ベースのアフォーダンス表現を定義する。
- 階層的な視覚プロンプティングを用いて言語指示をサブタスクに分解し、アフォーダンス出力を生成する。
- RGB画像上でマークベースのプロンプト(ドット、グリッド、キャプション)を適用し、連続出力を複数選択式の VLM 応答に変換する。
- 深度とカメラパラメータを用いて2D VLM出力を3D空間にデプロットし、把持と操作の SE(3) 軌道を生成する。
- インコンテキスト学習によるブートストラッピング(成功した軌道を例として追加)と、MOKAのローターダウンからの教師ありポリシー蒸留(生徒ポリシーの訓練)を行う。
- オープンボキャブラリの机上タスクに対して、Code-as-Policies および VoxPoser のベースラインと、ゼロショットおよびインコンテキスト変種を比較する。
実験結果
リサーチクエスチョン
- RQ1MOKA は、2D 画像上でアフォーダンスと運動推論を行い、オープンボキャブラリ操作タスクを解決できるか。
- RQ2VLM 出力を低レベルの運動へ翻訳する性能は、多様なタスクや物体でどれほど良いか。
- RQ3インコンテキスト学習やポリシー蒸留を通じて現実世界の相互作用により MOKA は改善できるか。
主な発見
| 拭取りサブタスク I | 拭取りサブタスク II | 腕時計の清掃サブタスク I | 腕時計の清掃サブタスク II | 贈り物準備サブタスク I | 贈り物準備サブタスク II | ノートパソコン梱包サブタスク I | ノートパソコン梱包サブタスク II |
|---|---|---|---|---|---|---|---|
| 0.7 | 0.6 | 0.6 | 1.0 | 1.0 | 0.7 | 0.4 | 0.8 |
| 0.6 | 0.0 | 0.6 | 0.8 | 1.0 | 0.6 | 0.5 | 0.8 |
| 0.6 | 0.6 | 0.7 | 1.0 | 1.0 | 0.7 | 0.5 | 0.8 |
| 1.0 | 0.7 | 0.8 | 0.8 | 1.0 | 0.7 | 1.0 | 1.0 |
| 0.9 | 0.9 | 0.9 | 1.0 | 1.0 | 0.9 | 1.0 | 0.9 |
- MOKA は、ゼロショット設定で4つのオープンボキャブラリ操作タスクで最先端の性能を達成し、インコンテキスト例で改善する。
- ゼロショットの MOKA と VoxPoser は多くのサブタスクで同等の結果を示し、ツール使用シナリオで MOKA が強みを示す。
- インコンテキスト例や蒸留ポリシーによるブートストラッピングは、サブタスク全体の成功率をさらに向上させる。
- 予測されたキーポイントと運動は、テーブルトップのシーンで SE(3) 軌道として視覚的に表現・実行できる。
- 成功した軌道を模倣学習やポリシー訓練のデモンストレーションとして収集することが可能(例:Octo など)。
- 失敗分析は、推論と実行のエラーを区別し、VLM ベースのアフォーダンス予測と低レベル制御の今後の改善を導く。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。