[論文レビュー] OpenVLA: An Open-Source Vision-Language-Action Model
OpenVLA は 970k 件の実世界ロボットデモンストレーションで訓練されたオープンソースの 7B パラメータ Vision-Language-Action モデルで、汎用的な操作性能を強力に発揮し、LoRAと量子化を用いた効率的なファインチューニングを実現します。閉じた VLA RT-2-X よりも複数のタスクで優れており、サイズが小さく、公開アクセスも可能です。
Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
研究の動機と目的
- オープンでアクセス可能な VLA モデルがロボティクスの一般化を堅牢にする必要性を動機づける。
- 複数の実世界デモンストレーションを活用して汎用的に一般化できる7BパラメータのオープンVLAを開発する。
- データ効率的な手法で新しいロボットとタスクへのファインチューニング効果を示す。
- LoRAと量子化を用いた計算資源効率の高い学習と推論を実現する。
- オープン研究と再現性を可能にするコード、データ、チェックポイントを公開する。
提案手法
- プライスミック-7B VLM バックボーンに、SigLIP と DinoV2 の視覚エンコーダーを統合し、Llama 2 7B 言語モデルを組み合わせる。
- 連続的なロボット動作を、LLM トークナイザーに合わせた離散トークンとして表現するため、各動作次元を256ビンに離散化(Llama ボキャブラリ内の256トークンにマッピング)。
- 画像観察、言語命令、動作トークンを組み合わせたシーケンスの次のトークン予測で訓練する。
- OpenX Embodiment データセットを多様な embodiment とタスクにわたって970k 件のロボットデモンストレーションでキュレーションし、Octo によるデータ混合重み付けにインスパイアされた。
- トレーニング中に視覚エンコーダーを凍結せず微細空間的なディテールを捉えるようファインチューニングする。
- LoRA、サンドイッチ fine-tuning、モデル量子化を含む効率的なファインチューニングと推論技術を探索し、消費者GPUでのデプロイを可能にする。
![Figure 1: OpenVLA model architecture. Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions. The architecture consists of three key components: (1) a vision encoder that concatenates Dino V2 [ 25 ] and SigLIP [ 77 ] features, (2) a projector th](https://ar5iv.labs.arxiv.org/html/2406.09246/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1OpenVLA は複数のロボット embodiment およびタスクで出荷時の強力な性能を提供できるか。
- RQ2OpenVLA は既存の一般派政策およびより大規模なクローズVLA(RT-2-X)を標準ベンチマークでどう比較されるか。
- RQ3限られたデータで新しいロボット設定へ OpenVLA をどれだけ効果的にファインチューニングできるか。
- RQ4パラメータ効率的なファインチューニング手法(例:LoRA)と量子化は、パフォーマンスを低下させずに消費者向けハードウェアでの学習と推論に適用できるか。
- RQ5モデルサイズ、データ多様性、計算量のトレードオフは OpenVLA 型 VLAs にとってどうなるか。
主な発見
- OpenVLA(7B)はクローズド RT-2-X(55B)を、29タスクにおける成功率の絶対値で16.5ポイント上回り、パラメータ数が少ないにもかかわらず優れた性能を示す。
- 新しいタスクで OpenVLA をファインチューニングすると強い一般化を得られ、データ効率的な適応が言語基盤タスクを含む複数物体タスクで拡散方針ベースラインを上回る。
- LoRA ファインチューニングは完全ファインチューニングと同等の性能を保ちつつ、パラメータの1.4% のみを使用するため、10–15 時間/タスクで消費者GPU上の学習を実現。
- 量子化(int4 を含む)は、ダウンストリームの性能をほとんどまたは全く損なうことなく、メモリ効率の良い推論を可能にする。
- OpenVLA は複数の embodiment(WidowX, Google robot)を跨る強力な出荷時一般派操作を示し、スケーラブルな学習/推論ワークフローをサポートする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。