[論文レビュー] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
SPHINX-X はデータとパラメータを拡大し、アーキテクチャを簡素化し、ワンステージの全一パイプラインで訓練することで、さまざまなベースモデルにわたる多モーダル LLM ファミリーを構築する。
We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory
研究の動機と目的
- ドメイン横断の一般化を向上させるため、マルチモーダル LLM のデータカバレッジとパラメータ規模を拡張する。
- アーキテクチャと訓練の効率化を図り、モバイルデバイスでの展開可能性を高める。
- 多様なマルチドメインデータセットと2つのターゲットデータセット(OCR集約型と Set-of-Mark)を統合し、視覚およびテキスト能力を強化する。
- 様々なパラメータ数と多言語サポートを持つベース LLM において、性能向上を実証する。
提案手法
- MoV を形成するため、DINOv2 と CLIP-ConvNeXt の2つの視覚エンコーダを維持して SPHINX を改良する。
- 全てがパディングされたサブ画像を回避し、シーケンス長を削減するための学習可能なスキップトークンを導入する。
- 言語・視覚・視覚言語データの幅広い範囲を、ワンステージ訓練のための統一されたマルチターン対話形式に変換する。
- OCR集約型および Set-of-Mark データを含む大規模なマルチドメインデータセットを、公開視覚言語リソースとともに統合する。
- TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B、Mixtral-8×7B などのベース LLM に対して、単一ステージのパイプラインで SPHINX-X バリアントを訓練する。
- データとパラメータ規模がベンチマーク全体でのマルチモーダル性能とどのように相関するかを評価する。
実験結果
リサーチクエスチョン
- RQ1データ規模が、異なるベース LLM サイズ間のマルチモーダル性能にどのように影響するか?
- RQ2視覚エンコーダを減らし、スキップトークンを使用することが、効率と精度に与える影響は?
- RQ3単一ステージの全一訓練パイプラインは、MLLMs のマルチステージ訓練と同等またはそれを超えることができるか?
- RQ4OCR集約型および Set-of-Mark データセットは、ドメイン特化能力をどの程度向上させるか?
- RQ5多言語化および多ドメイン機能は、パラメータ数の増加と多様なデータで改善されるか?
主な発見
- データ量の増大とより大きな LLM パラメータは、ベンチマーク全体でのマルチモーダル理解の向上と相関する。
- 2つの視覚エンコーダ(MoV)とスキップトークンを用いた SPHINX-X は、シーケンス長を削減しつつ性能を維持する。
- 単一ステージの全一訓練パイプラインは、多様なデータセットとタスクをMLLMに成功裏に統合する。
- OCR集約型および Set-of-Mark データは、OCRと微細なマルチモーダル能力を向上させる。
- SPHINX-Plus および SPHINX-MoE バリアントは、データとパラメータを拡張して使用すると元の SPHINX より改善を示す。
- 同じ訓練パイプラインで、ベース LLM を 1.1B から最大で 7×8B パラメータへ拡大すると、一貫してマルチモーダル推論が向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。