[論文レビュー] VIMA: General Robot Manipulation with Multimodal Prompts
VIMAは多模態プロンプトを導入して多様なロボット操作タスクを統一し、VIMA-Benchベンチマークを提示し、オブジェクト中心の表現を用いてゼロショット一般化を高い精度で達成するトランスフォーマー ベースのエージェントを訓練します。
Prompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. Yet task specification in robotics comes in various forms, such as imitating one-shot demonstrations, following language instructions, and reaching visual goals. They are often considered different tasks and tackled by specialized models. We show that a wide spectrum of robot manipulation tasks can be expressed with multimodal prompts, interleaving textual and visual tokens. Accordingly, we develop a new simulation benchmark that consists of thousands of procedurally-generated tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation learning, and a four-level evaluation protocol for systematic generalization. We design a transformer-based robot agent, VIMA, that processes these prompts and outputs motor actions autoregressively. VIMA features a recipe that achieves strong model scalability and data efficiency. It outperforms alternative designs in the hardest zero-shot generalization setting by up to $2.9 imes$ task success rate given the same training data. With $10 imes$ less training data, VIMA still performs $2.7 imes$ better than the best competing variant. Code and video demos are available at https://vimalabs.github.io/
研究の動機と目的
- 広いスペクトルのロボット操作タスクをテキストと画像を交互に用いる多模態プロンプトとして定式化する。
- VIMA-Benchを作成する。これはスケーラビリティと一般化を評価するための大規模で手続き的に生成されるベンチマークである。
- VIMAを開発する。これは多模態プロンプトを処理し、モーターアクションを自己回帰的に出力するトランスフォーマーベースの具現化エージェントである。
- モデルサイズと訓練データ規模の影響を通じてスケーラビリティとデータ効率を実証する。
提案手法
- 多模態プロンプトをテキストと画像トークンの交互列として定義する。
- オブジェクト中心の視覚トークン化器(Mask R-CNN)を用いて画像をオブジェクトトークンの列に変換する。
- デコーダがクロスアテンションを介してプロンプトで条件付けされ、モーターアクションを自己回帰的に出力するエンコーダ-デコーダー トランスフォーマーを採用する。
- Offline 行動模倣学習を通じて、プロンプトと履歴を与えた専門家の行動の尤度を最大化する。
- 四段階のVIMA-Benchプロトコルで評価し、段階的に強化されたゼロショット一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1多模態プロンプトで指定された複数の操作タスクを単一のモデルが学習できるか。
- RQ2モデル容量と訓練データサイズが多模態ロボット学習におけるゼロショット一般化にどう影響するか。
- RQ3視覚トークン化とプロンプト条件付けが方策性能に与える影響は何か。
- RQ4注意散乱物や破損したプロンプトに対するアプローチの頑健性はどの程度か。
主な発見
- VIMAはすべてのゼロショット一般化レベルとモデルサイズでベースライン設計を上回る。
- 最も難しい設定で、同じ訓練データを与えた場合でもVIMAは最大で2.9xのタスク成功率を達成する。
- 訓練データを10分の1に減らしても、VIMAは競合するバリアントよりはるかに良好であり、場合によっては2.7x。
- オブジェクト中心のトークンは原画像やダウンサンプリングされたトークンで動作する方法よりも優れている。
- デコーダをプロンプトへクロスアテンションで条件付けることは、特に小さなモデルで顕著な利得を生み、一般化には不可欠である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。