[論文レビュー] RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
ロボMambaは、Mamba状態空間モデルと視覚エンコーダを組み合わせたエンドツーエンドのロボティック多模態LLMで、超高効率なファインチューニングと高速推論を実現しつつ、視覚推論と姿勢予測操作を可能にします。
A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing Vision-Language-Action (VLA) models for robots can handle a range of basic tasks, they still face challenges in two areas: (1) insufficient reasoning ability to tackle complex tasks, and (2) high computational costs for VLA model fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic VLA model that leverages Mamba to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual tokens with language embedding through co-training, empowering our model with visual common sense and robotic-related reasoning. To further equip RoboMamba with SE(3) pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time. In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 3 times faster than existing VLA models. Our project web page: https://sites.google.com/view/robomamba-web
研究の動機と目的
- ロボットが視覚的シーンを理解し、エンドツーエンドの多模態LLMを介して行動を実行できるようにすること。
- 線形計算量での効率的な推論を実現する selective State Space Model (SSM) アプローチ(Mamba)を活用すること。
- 視覚データを言語埋め込みと整合させるために視覚エンコーダを統合し、視覚的常識とロボット関連の推論を強化すること。
- 最小限のパラメータと時間でエンドエフェクタの姿勢予測を可能にする超軽量ファインチューニング戦略を開発すること。
提案手法
- Mamba言語モデルとCLIPベースの視覚エンコーダを、視覚特徴をMambaのトークン空間へ写像するクロスモーダルMLP接続器を用いて統合する。
- 2段階で学習を行い、ステージ1.1でアライメント事前学習、ステージ1.2で指示共同学習を行い、視覚/常識およびロボット関連の推論を組み込む。
- ステージ1には画像-テキストデータでのアライメント事前学習と、混合視覚-言語データセットとRoboVQAデータを含む指示共同学習を組み込む2段階のトレーニングパイプラインを採用。
- ステージ2では、メインモデルを固定したまま、6自由度エンドエフェクタ姿勢(2D位置と3D姿勢、あるいはグリッパを含む7-DoF)を予測する簡単なポリシーヘッドを用いた効率的な操作ファインチューニングを導入する。
- ポリシーヘッドはaposとadirの2つのMLPで構成され、約3.7Mパラメータ(モデル全体の0.1%)となり、約20分のファインチューニングを可能にする。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドのロボット中心MLLMは、推論とファインチューニングの効率性を維持しつつ、強力な推論能力を発揮できるか。
- RQ2視覚エンコーダをMambaと統合することは、操作タスクにおいて堅牢な視覚的常識とロボット関連の推論を生み出すか。
- RQ3軽量なポリシーヘッドベースのファインチューニング手法は、LLMの推論能力を損なうことなく信頼できるエンドエフェクタ姿勢予測を得るのに十分か。
主な発見
- RoboMambaは、複数のベンチマーク(OKVQA、VQAv2、GQA、VizWiz、OCR-VQA、POPE、MME、MM-B、MM-Vet)で2.7Bパラメータモデルとして競争力のある一般言語-視覚推論を達成。
- RoboVQAでのロボット関連推論はベースラインより優れたBLEUスコアを示し、従来のロボットMLLMより推論速度が約7倍速い。
- SAPIENシミュレーションでは、7MBのポリシーヘッドと20分未満のファインチューニングで最先端の操作性能を達成。
- 姿勢予測ファインチューニングはモデルパラメータの0.1%(3.7M)と約20分のみを要し、推論能力が操作スキルの効率的獲得を可能にすることを示す。
- 実世界の実験では、RoboMambaが長期目標タスクを計画しエンドエフェクタ姿勢を予測できることを示し、強力な推論およびアフォーダンス推論能力を有する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。