QUICK REVIEW

[論文レビュー] SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Ziyi Lin, Chris Liu|arXiv (Cornell University)|Nov 13, 2023

Multimodal Machine Learning Applications被引用数 24

ひとこと要約

SPHINXは事前学習中にLLMの凍結を解除し、現実世界データと合成データのウェイトを混合し、チューニングタスクと視覚埋め込みを混合し、高解像度のサブ画像トークンを用いてマルチモーダル理解を強化する。

ABSTRACT

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

研究の動機と目的

多様なドメイン知識をウェイト混合を通して統合し、マルチモーダルLLMsの容量拡張を動機づける。
多様な視覚言語タスクの jointly-tuning を通じて広範な視覚指示追従を可能にする。
複数のバックボーンと事前学習パラダイムからの埋め込みを混合して視覚表現を改善する。
マルチスケールおよびサブ画像トークンを取り入れて高解像度の視覚認知に対処する。
言語参照によるセマンティングや画像編集など、モデル統合を通じた実用的な拡張を探る。

提案手法

事前学習時にLLM全体の凍結を解除して視覚言語整合を改善しつつ、視覚エンコーダは凍結した状態を維持する。
現実世界と合成ドメインのLLM重みを線形に組み合わせるウェイト混合戦略を導入する：theta_mix = beta * theta_real + (1 - beta) * theta_syn.
タスク間の干渉を回避するため、幅広いチューニングタスクを混合してモデルを多用途な視覚指示追従に適応させ、タスクごとのプロンプトを用意する。
多様なバックボーン（CNNとViT、監視学習と自己教師あり学習、グローバルとローカル）から視覚埋め込みをアンサンブルし、それらを結合して堅牢な画像表現を作る。
複数のスケールと高解像度サブ画像を混ぜ、複数の画像クロップとダウンサンプリング版を並列処理してトークン群を結合し、微細な高解像度理解を可能にする。
SAMと連携する言語参照セグメンテーションのような応用をSPHINXに拡張し、LaMaとStable Diffusionによる画像編集を通じてSPHINXを視覚認識タスクの普遍的な初期化として実証する。

実験結果

リサーチクエスチョン

RQ1事前学習時のLLMの凍結解除は、クロスモーダル整合と言語能力の保持にどのような影響を与えるのか？
RQ2現実世界と合成ドメインのLLMを線形混合することで堅牢性とドメイン特異的知識の統合は改善されるのか？
RQ3複数の視覚タスクと多様な埋め込みの共同混合は、ベンチマークを横断して優れたマルチモーダル理解を生み出すのか？
RQ4高解像度サブ画像戦略と多スケール埋め込みの混合は、細粒度の視覚解析と領域レベルの推論を改善するのか？
RQ5他の視覚ファウンデーションモデルと組み合わせたとき、SPHINXの実用的拡張と下流の利点は何か？

主な発見

SPHINXは10件中6件のベンチマークで従来の最先端MLLMより高い性能を示した。
高解像度バリアントSPHINX-1kおよびSPHINX-2kは、特にPOPEなどのタスクでベースのSPHINXより性能を改善している。
混ぜ合わせたスケールの高解像度サブ画像は、視覚エンコーダの再訓練なしで細粒度の視覚知覚を向上させる。
多様なバックボーンと事前学習パラダイムからの埋め込みを混合すると、視覚言語整合性と堅牢性が強化される。
ウェイトとタスクの混合を伴う二段階訓練は、言語モデリングの品質を維持しつつクロスモーダル機能を可能にする。
SPHINXは一般的なVQAとテキスト指向VQAベンチマークのいずれにおいても汎用性を示し、競争力のある結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。