QUICK REVIEW

[論文レビュー] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Shengbang Tong, Ellis Brown|arXiv (Cornell University)|Jun 24, 2024

Advanced Computational Techniques and Applications被引用数 12

ひとこと要約

この論文は multimodal LLMs のための視覚中心の視覚表現を調査し、CV-Bench と Spatial Vision Aggregator (SVA) を導入し、マルチモーダル視覚-grounded LLM研究を前進させるためにオープンなウェイト、データ、チューニングレシピを提供します。

ABSTRACT

We introduce Cambrian-1, a family of multimodal LLMs (MLLMs) designed with a vision-centric approach. While stronger language models can enhance multimodal capabilities, the design choices for vision components are often insufficiently explored and disconnected from visual representation learning research. This gap hinders accurate sensory grounding in real-world scenarios. Our study uses LLMs and visual instruction tuning as an interface to evaluate various visual representations, offering new insights into different models and architectures -- self-supervised, strongly supervised, or combinations thereof -- based on experiments with over 20 vision encoders. We critically examine existing MLLM benchmarks, address the difficulties involved in consolidating and interpreting results from various tasks, and introduce a new vision-centric benchmark, CV-Bench. To further improve visual grounding, we propose the Spatial Vision Aggregator (SVA), a dynamic and spatially-aware connector that integrates high-resolution vision features with LLMs while reducing the number of tokens. Additionally, we discuss the curation of high-quality visual instruction-tuning data from publicly available sources, emphasizing the importance of data source balancing and distribution ratio. Collectively, Cambrian-1 not only achieves state-of-the-art performance but also serves as a comprehensive, open cookbook for instruction-tuned MLLMs. We provide model weights, code, supporting tools, datasets, and detailed instruction-tuning and evaluation recipes. We hope our release will inspire and accelerate advancements in multimodal systems and visual representation learning.

研究の動機と目的

さまざまな視覚エンコーダとその組み合わせがマルチモーダル LLM の性能に与える影響を評価する。
視覚中心のベンチマークスイート（CV-Bench）を導入し、MLLM における視覚 grounding を評価する。
高解像度の視覚特徴を LLM に統合しつつトークン負荷を低減する、ダイナミックで空間認識型のコネクタ（SVA）を開発する。
データキュレーション戦略と指示チューニングレシピを提供し、オープンで再現可能な MLLM 研究を促進する。
最先端の結果を示し、モデル、コード、データセットのオープンリリースを推進する。

提案手法

システム的に 23 の視覚バックボーンを、Vicuna-1.5-7B ベースの MLLM フレームワーク内で視覚エンコーダとして評価する、2段階の指示チューニングパイプラインを用いる。
SVA を、多エンコーダ統合のためのダイナミックで空間認識型のクロスアテンションコネクタとして提案・分析する。
標準の視覚ベンチマークを視覚中心の VQA 形式（CV-Bench）へ再定式化し、2D・3D 理解を評価する。
視覚エンコーダの凍結/解凍とアダプタデータを変化させ（0M, 0.5M, 1.2M）、トレーニングレシピを検討する。
複数の視覚エンコーダを組み合わせるアンサンブル戦略を探り、それらがベンチマーク性能に与える影響を評価する。
オープンなモデルウェイト、コード、データセット、および詳細な評価・チューニングレシピを提供する。

実験結果

リサーチクエスチョン

RQ1自己教師あり・言語教師ありを含むさまざまな視覚エンコーダは、広範なタスクと視覚中心のタスクを通じてMLLMの性能にどう影響するか？
RQ2視覚中心のベンチマーク（CV-Bench）は、MLLMにおける視覚 grounding を信頼性高く評価し、現在の表現のギャップを明らかにできるか？
RQ3指示チューニングデータサイズとコネクタ訓練戦略がMLLMの性能にどのような影響を与えるか？
RQ4視覚エンコーダを凍結解除すると、ベンチマークとアーキテクチャ全般で一貫して性能が向上するか？
RQ5高度なコネクタ（SVA）を介して複数の視覚エンコーダを組み合わせることは、単一エンコーダ構成を上回るか？

主な発見

言語教師付きの視覚エンコーダは、特にチャートとOCRタスクで、ほとんどのベンチマークでSSL/他のエンコーダよりも優れている。
1.2M のアダプタデータを用いた2段階トレーニングは、ドメインを跨ぐ場合、単一段階のトレーニングよりもパフォーマンスが向上する。
視覚エンコーダの解凍（凍結解除）はほとんどの設定で性能を向上させ、SSLモデルは視覚中心のタスクでより恩恵を受ける。
高解像度エンコーダとConvNetベースのアーキテクチャは、チャート/OCRおよび視覚中心の性能を顕著に向上させる。
複数の視覚エンコーダをエンサンブルすることは一貫した利益をもたらし、特に視覚中心のタスクに有利である。
DINOv2（SSL）は、十分なデータと適切な微調整があれば言語-supervised モデルとのギャップを縮めることができ、特に視覚中心のタスクで効果的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。