[論文レビュー] Vision-Language Foundation Models as Effective Robot Imitators
RoboFlamingoは視覚言語モデルを用いて模倣学習でロボット操作へ適応し、OpenFlamingo backboneと軽量なファインチューニングを用いて CALVIN で最先端の結果を達成します。
Recent progress in vision language foundation models has shown their ability to understand multimodal data and resolve complicated vision language tasks, including robotics manipulation. We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. To this end, we derive a simple and novel vision-language manipulation framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo. Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step vision-language comprehension, models sequential history information with an explicit policy head, and is slightly fine-tuned by imitation learning only on language-conditioned manipulation datasets. Such a decomposition provides RoboFlamingo the flexibility for open-loop control and deployment on low-performance platforms. By exceeding the state-of-the-art performance with a large margin on the tested benchmark, we show RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control. Our extensive experimental results also reveal several interesting conclusions regarding the behavior of different pre-trained VLMs on manipulation tasks. We believe RoboFlamingo has the potential to be a cost-effective and easy-to-use solution for robotics manipulation, empowering everyone with the ability to fine-tune their own robotics policy.
研究の動機と目的
- ロボット操作における自然言語 grounding と視覚言語理解を制御ポリシーに組み込むため、 vision-language foundation models (VLMs) の利用を動機づける。
- open-loop または低資源デプロイメントのため、 vision-language 理解を意思決定から切り離す軽量フレームワークとして RoboFlamingo を提案する。
- 操作デモンストレーション上で小さなサブセットのコンポーネントを微調整することで CALVIN で強力な性能と一般化を示す。
提案手法
- Flamingo-based OpenFlamingo を backbone として、各ステップの視覚と言語入力を結合表現へ処理する。
- 行動決定をモデル化するポリシーヘッドを導入し、必要に応じ LSTM などの系列モデルで履歴を捉える。
- VL モデルの残りを固定し、 perceiver resampler、decoder の cross-attention、ポリシーヘッドのみを微調整する。
- 姿勢回帰 (MSE) とグリッパー分類 (BCE) を組み合わせた模倣学習目的で訓練する。
- 各ステップのモデル入力は二視点画像と言語指示で、出力は 7-DoF 手先姿勢とグリッパー状態。
実験結果
リサーチクエスチョン
- RQ1事前訓練された視覚言語モデルは、 manipulation デモが限られている場合にロボット imitator として効果的に機能し得るか。
- RQ2RoboFlamingo は言語条件付き操作、ゼロショット一般化、および異なる VL モデル構成でどのようにパフォーマンスを示すか。
- RQ3VL 前訓練、モデルサイズ、指示調整が下流のロボティクス課題に与える影響は何か。
主な発見
| 手法 | 訓練データ | テスト分割 | シーケンスで完了したタスク(1) | シーケンスで完了したタスク(2) | シーケンスで完了したタスク(3) | シーケンスで完了したタスク(4) | シーケンスで完了したタスク(5) | 平均長さ |
|---|---|---|---|---|---|---|---|---|
| MCIL | ABCD (Full) | D | 0.373 | 0.027 | 0.002 | 0.000 | 0.000 | 0.40 |
| HULC | ABCD (Full) | D | 0.889 | 0.733 | 0.587 | 0.475 | 0.383 | 3.06 |
| HULC | ABCD (Lang) | D | 0.892 | 0.701 | 0.548 | 0.420 | 0.335 | 2.90 |
| RT-1 | ABCD (Lang) | D | 0.844 | 0.617 | 0.438 | 0.323 | 0.227 | 2.45 |
| RoboFlamingo (Ours) | ABCD (Lang) | D | 0.964 | 0.896 | 0.824 | 0.740 | 0.66 | 4.09 |
| MCIL | ABC (Full) | D | 0.304 | 0.013 | 0.002 | 0.000 | 0.000 | 0.31 |
| HULC | ABC (Full) | D | 0.418 | 0.165 | 0.057 | 0.019 | 0.011 | 0.67 |
| RT-1 | ABC (Lang) | D | 0.533 | 0.222 | 0.094 | 0.038 | 0.013 | 0.90 |
| RoboFlamingo (Ours) | ABC (Lang) | D | 0.824 | 0.619 | 0.466 | 0.331 | 0.235 | 2.48 |
| HULC | ABCD (Full) | D (Enriched) | 0.715 | 0.470 | 0.308 | 0.199 | 0.130 | 1.82 |
| RT-1 | ABCD (Lang) | D (Enriched) | 0.494 | 0.222 | 0.086 | 0.036 | 0.017 | 0.86 |
| Ours | ABCD (Lang) | D (Enriched) | 0.720 | 0.480 | 0.299 | 0.211 | 0.144 | 1.85 |
| Ours (freeze-emb) | ABCD (Lang) | D (Enriched) | 0.737 | 0.530 | 0.385 | 0.275 | 0.192 | 2.12 |
- RoboFlamingo は CALVIN における言語条件付き操作で全てのベースラインを上回る。
- ゼロショットの視覚・言語一般化により、未見の物体や言い換えられた指示を RoboFlamingo が堅牢に処理することを示す。
- VL 前訓練と微調整は下流のロボティクス性能を大幅に向上させ、より大きなモデルと指示調整がデータが限られている場合に有利。
- 履歴を考慮したポリシーヘッド(例: LSTM)を用いると、単一ステップの MLP よりも改善され、時間的文脈の重要性を示す。
- オープンループ制御は高速だが、性能を維持するにはジャンプステップのデモンストレーションで再訓練が必要になる場合がある。
- 言語注釈データが 10% の場合でも大規模モデルは依然として優れた性能を示し、指示調整(IFT)により改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。