[論文レビュー] Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning
ViLa は GPT-4V を統一的な視覚-言語プランナーとして用い、長期的なロボット作業を視覚データに grounded して、open-world な操作における LLM ベースのプランナーを上回る。マルチモーダルな目標と視覚フィードバックをサポートし、 closed-loop の planning を実現する。
In this study, we are interested in imbuing robots with the capability of physically-grounded task planning. Recent advancements have shown that large language models (LLMs) possess extensive knowledge useful in robotic tasks, especially in reasoning and planning. However, LLMs are constrained by their lack of world grounding and dependence on external affordance models to perceive environmental information, which cannot jointly reason with LLMs. We argue that a task planner should be an inherently grounded, unified multimodal system. To this end, we introduce Robotic Vision-Language Planning (ViLa), a novel approach for long-horizon robotic planning that leverages vision-language models (VLMs) to generate a sequence of actionable steps. ViLa directly integrates perceptual data into its reasoning and planning process, enabling a profound understanding of commonsense knowledge in the visual world, including spatial layouts and object attributes. It also supports flexible multimodal goal specification and naturally incorporates visual feedback. Our extensive evaluation, conducted in both real-robot and simulated environments, demonstrates ViLa's superiority over existing LLM-based planners, highlighting its effectiveness in a wide array of open-world manipulation tasks.
研究の動機と目的
- purely linguistic reasoning を超えた scene-aware な grounded なロボティクス課題計画の必要性を動機づける。
- 視覚観察を直接推論と planning に用いる unified vision-language planning アプローチ(ViLa)を提案する。
- 視覚を planning に統合することで open-world タスクにおける空間配置と物体属性の理解を向上させることを示す。
- 実世界とシミュレーション環境で、multimodal な目標指定と視覚フィードバックを用いた ViLa の能力をデモンストレーションする。
提案手法
- 高次の指示と primitive skills の集合からテキストアクションの連続を生成することで長期ロボティクス計画を定式化する。
- 外部 grounding モジュールを使わず、現在の視覚観察と指示から step-by-step の計画を生成するために vision-language model(VLM)、特に GPT-4V を使用する。
- 最初の計画ステップを対応する primitive policy で実行し、閉ループ計画のために視覚観察を更新する。
- dynamic な環境で再計画するための直接的入力として視覚フィードバックを VLM に提供する。
- 実世界およびシミュレーションのタスクで ViLa を SayCan および Grounded Decoding と比較し、視覚-grounded 推論の利得を評価する。
実験結果
リサーチクエスチョン
- RQ1 視覚データに grounded された統一的マルチモーダルプランナーは、外部適合モデルに依存する LLM ベースのプランナーよりも性能を上回るか。
- RQ2 視覚を planning に直接組み込むことで、空間配置と物体属性の理解は改善されるか。
- RQ3 ViLa はマルチモーダルな目標指定をどれだけ効果的に扱い、視覚フィードバックを用いて頑健かつ長期計画を維持できるか。
主な発見
| Task | SayCan | GD | ViLa |
|---|---|---|---|
| Pour Chips | 20% | 40% | 80% |
| Bring Pepsi Can | 40% | 30% | 90% |
| Bring Empty Plate | 0% | 0% | 100% |
| Take Out Marvel Model | 0% | 10% | 70% |
| Righteous Characters | 0% | 10% | 80% |
| Pick Fresh Fruits | 20% | 30% | 80% |
| Stack Plates Steadily | 20% | 10% | 70% |
| Prepare Art Class | 0% | 30% | 70% |
- ViLa は、空間配置と物体属性の理解を要する実世界タスクで SayCan および Grounded Decoding より高い成功率を達成する。
- ViLa は、画像のみや言語+画像の指示を含む柔軟なマルチモーダル目標をサポートし、評価されたタスク全体で高いタスク成功率を示す。
- 視覚フィードバックを用いた Closed-loop ViLa は、open-loop 版を大きく上回り、動的環境での robust な再計画を示す。
- シミュレーションの RAVENS 実験では、 ViLa は seen/unseen タスクでベースラインを引き続き上回り、一般化能力を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。