QUICK REVIEW

[論文レビュー] SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Liu, Dongyang, Renrui Zhang|arXiv (Cornell University)|Feb 8, 2024

Natural Language Processing Techniques被引用数 10

ひとこと要約

SPHINX-X はデータとパラメータを拡大し、アーキテクチャを簡素化し、ワンステージの全一パイプラインで訓練することで、さまざまなベースモデルにわたる多モーダル LLM ファミリーを構築する。

ABSTRACT

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

研究の動機と目的

ドメイン横断の一般化を向上させるため、マルチモーダル LLM のデータカバレッジとパラメータ規模を拡張する。
アーキテクチャと訓練の効率化を図り、モバイルデバイスでの展開可能性を高める。
多様なマルチドメインデータセットと2つのターゲットデータセット（OCR集約型と Set-of-Mark）を統合し、視覚およびテキスト能力を強化する。
様々なパラメータ数と多言語サポートを持つベース LLM において、性能向上を実証する。

提案手法

MoV を形成するため、DINOv2 と CLIP-ConvNeXt の2つの視覚エンコーダを維持して SPHINX を改良する。
全てがパディングされたサブ画像を回避し、シーケンス長を削減するための学習可能なスキップトークンを導入する。
言語・視覚・視覚言語データの幅広い範囲を、ワンステージ訓練のための統一されたマルチターン対話形式に変換する。
OCR集約型および Set-of-Mark データを含む大規模なマルチドメインデータセットを、公開視覚言語リソースとともに統合する。
TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B、Mixtral-8×7B などのベース LLM に対して、単一ステージのパイプラインで SPHINX-X バリアントを訓練する。
データとパラメータ規模がベンチマーク全体でのマルチモーダル性能とどのように相関するかを評価する。

実験結果

リサーチクエスチョン

RQ1データ規模が、異なるベース LLM サイズ間のマルチモーダル性能にどのように影響するか？
RQ2視覚エンコーダを減らし、スキップトークンを使用することが、効率と精度に与える影響は？
RQ3単一ステージの全一訓練パイプラインは、MLLMs のマルチステージ訓練と同等またはそれを超えることができるか？
RQ4OCR集約型および Set-of-Mark データセットは、ドメイン特化能力をどの程度向上させるか？
RQ5多言語化および多ドメイン機能は、パラメータ数の増加と多様なデータで改善されるか？

主な発見

データ量の増大とより大きな LLM パラメータは、ベンチマーク全体でのマルチモーダル理解の向上と相関する。
2つの視覚エンコーダ（MoV）とスキップトークンを用いた SPHINX-X は、シーケンス長を削減しつつ性能を維持する。
単一ステージの全一訓練パイプラインは、多様なデータセットとタスクをMLLMに成功裏に統合する。
OCR集約型および Set-of-Mark データは、OCRと微細なマルチモーダル能力を向上させる。
SPHINX-Plus および SPHINX-MoE バリアントは、データとパラメータを拡張して使用すると元の SPHINX より改善を示す。
同じ訓練パイプラインで、ベース LLM を 1.1B から最大で 7×8B パラメータへ拡大すると、一貫してマルチモーダル推論が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。