[論文レビュー] LLaVA-OneVision: Easy Visual Task Transfer
LLaVA-OneVisionは、単一画像、複数画像、および動画タスクで卓越性を示す単一の公開大規模マルチモーダルモデルを訓練し、画像から動画への転移を含む強力なクロスシナリオ転移能力を実証します。
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.
研究の動機と目的
- 多様なビジョンタスクを横断して高性能を発揮するオープンで汎用的なビジュアルアシスタントを構築することを目指す。
- 単一モデルで3つの主要なビジョン設定(単一画像、複数画像、動画)においてオープンLMMの性能を押し上げられることを実証する。
- クロスシナリオの訓練とデータ表現から生じるタスク転移と出現する能力を探索する。
- コミュニティ開発を促進するため、オープンソースのデータ、コード、モデルチェックポイントを公開する。
提案手法
- Qwen-2をLLMとして、SigLIPをビジョンエンコーダとして組み合わせ、2層のMLPプロジェクターを備えたミニマリストなLMM-visionエンコーダアーキテクチャを使用する。
- AnyResを用いた視覚入力を、解像度とトークン数のバランスを取る制御型視覚表現戦略として視覚トークンの系列として表現する。
- Stage-1 Language-Image Alignment、Stage-1.5 High-Quality Knowledge Learning、Stage-2 Visual Instruction Tuning、OneVision training の3段階のカリキュラムで訓練する。
- 高品質でデータ中心の知識学習レジームを採用し、Re-Captioned Detailed Description Data、Document/OCR Data、Chinese language data を含め、広範な視覚命令調整データを補完する。
- LMMs-Evalを用いた0-shot設定で、単一画像、複数画像、動画ベンチマークを標準化比較のために評価する。
実験結果
リサーチクエスチョン
- RQ1単一画像、複数画像、動画ビジョンタスク全体で、単一の公開モデルが最先端またはほぼ最先端の性能を達成できるか。
- RQ2 unified modelingとデータ表現から、クロスシナリオのタスク転移(例:画像から動画)をどこまで出現させることができるか。
- RQ33つのシナリオすべてにわたって性能と計算量のバランスを取る最適な視覚表現(解像度対トークン数)は何か。
- RQ4オープンLMMの学習効率と最終的な能力に、カリキュラム訓練戦略はどのように影響するか。
- RQ5高品質な合成指示データが、さまざまなベンチマークにわたるオープンLMMの性能に与える影響は何か。
主な発見
| 能力 | ベンチマーク | LLaVA OneVision-0.5B | LLaVA OneVision-7B | LLaVA OneVision-72B | GPT-4V (V-Preview) | GPT-4o |
|---|---|---|---|---|---|---|
| Single-Image | AI2D Science Diagrams | 57.1 % | 81.4 % | 85.6 % | 78.2 % | 94.2 % |
| Single-Image | ChartQA Chart Understanding | 61.4 % | 80.0 % | 83.7 % | 78.5 % | 85.7 % |
| Single-Image | DocVQA Document Understanding | 70.0 % | 87.5 % | 91.3 % | 88.4 % | 92.8 % |
| Single-Image | InfoVQA Infographic Understanding | 41.8 % | 68.8 % | 74.9 % | - | - |
| Single-Image | MathVerse Professional Math Reasoning | 17.9 % | 26.2 % | 39.1 % | 32.8 % | 50.2 % |
| Single-Image | MathVista General Math Understanding | 34.8 % | 63.2 % | 67.5 % | 49.9 % | 63.8 % |
- 72BパラメータのLLaVA-OneVisionは、単一画像、複数画像、動画のベンチマークで高い性能を発揮し、多くのタスクで商用モデルに近づくか超える。
- モデルは、統一表現と訓練戦略を通じて、特に画像から動画への能力など、クロスシナリオ転移を強力に示す。
- LLMをスケーリングし、Higher AnyRes視覚表現を用いることで、より大きなトークン予算と解像度で能力が向上。
- 複数のベンチマークでGPT-4VおよびGPT-4oと比較して、LLaVA-OneVision-72Bは広範なタスクで競合的な結果を示す。
- 最大モデル(72B)は小型バリアントをしばしば上回り、提案レシピのスケーラブルな利点を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。