QUICK REVIEW

[論文レビュー] CogVLM: Visual Expert for Pretrained Language Models

Weihan Wang, Qingsong Lv|arXiv (Cornell University)|Nov 6, 2023

Multimodal Machine Learning Applications被引用数 76

ひとこと要約

CogVLM は凍結済みの事前学習言語モデルに訓練可能な視覚エキスパートを導入し、視覚と言語の特徴の深い融合を実現するとともに、基盤パラメータが 17B のままで 17 のクロスモーダルベンチマークで最先端の結果を達成します。

ABSTRACT

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.

研究の動機と目的

既存のVLMsにおける浅い整合性を超えた、視覚と言語のより深い融合の必要性を動機づける。
凍結済みのLLMと相互作用する視覚エキスパートモジュールを提案し、NLP機能を損なうことなく深い多模情報統合を可能にする。
訓練可能な視覚エキスパートによる深い融合が、標準的なマルチモーダルベンチマークで競争力のあるまたは優れた性能をもたらすことを示す。
視覚理解の研究と応用を進めるために、CogVLMのウェイトとトレーニングデータのオープンソース提供を実証する。

提案手法

言語モデルの各Transformer層に訓練可能な視覚エキスパートモジュールを追加し、テキスト特徴と共存する画像特徴のための専用のQKVとMLPパスを使用する。
ViTの出力をMLPアダプタを介して言語モデルの特徴空間にマッピングし、長い画像シーケンスを管理するために画像トークンの位置IDを共有する。
画像-テキスト注意を含むすべてのアテンション操作でGPT風の因果マスクを維持し、自己回帰生成を保つ。
大規模な画像-テキストデータ（LAION-2BおよびCOYO-700M由来）でCogVLM-17Bを事前学習し、2段階のレジメンで：まず画像キャプション損失のみ、次にキャプションと指示表現グラウンディング（REC）を混在させ、時折視覚的グラウンディングタスクに解決を促す。
事前学習中の領域-物体対応を強化するため、名詞とボックス注釈を含む40M枚の画像からなる視覚グラウンディングデータセットを使用する。
自然言語対話用のCogVLM-Chatと境界ボックスグラウンディングタスク用のCogVLM-Groundingという2つの汎用モデルを用いて整合性を微調整する。
設計上の影響を検証するために、視覚エキスパートの配置、初期化、アテンションマスク、EMAを除去する（アブレーション）研究を行う。

実験結果

リサーチクエスチョン

RQ1Can a trainable visual expert in each LLM layer enable deeper fusion between visual and linguistic features without harming pure NLP capabilities?
RQ2How does deep fusion compare to shallow alignment methods across diverse multi-modal tasks (captioning, VQA, LVLM, grounding)?
RQ3What are the critical factors (visual encoder scale, attention masking, self-supervised image loss, EMA) that influence multimodal pretraining effectiveness?
RQ4How does CogVLM perform against state-of-the-art models on standard image captioning, VQA, LVLM benchmarks, and visual grounding datasets?
RQ5What are the effects of dataset size, pretraining data composition, and grounding supervision on multimodal generalization?

主な発見

CogVLM-17B は、画像キャプション、VQA、LVLM、視覚グラウンディングタスクを含む17のクロスモーダルベンチマークで最先端または競争力のある性能を達成します。
深い融合は、訓練可能な視覚エキスパートを用いた場合、浅い融合のベースライン（例：InstructBLIP、MiniGPT-4）を複数のベンチマークで大幅に上回ります。
このモデルはVQA、TextVQA、OCRVQA、ScienceQA、およびMM-Vet、MMBench、SEED-Bench、LLaVA-Bench、POPE、MMMU、MathVistaなどのLVLMベンチマークでも高い性能を示します。
視覚グラウンディングの結果は、いくつかの分割（例：RefCOCOのval/testサブセット、RefCOCO+、RefCOCOg）でSOTAレベルに到達し、領域-句の整合性の堅牢性を強調します。
アブレーション研究は、視覚エキスパートをLLMの重みで初期化すること、因果的な視覚アテンションマスクを使用すること、画像関連の自己教師あり学習を含めることが性能向上に寄与することを示します。
CogVLMはオープンソースのウェイトとSFTで使用されたデータセットを提供し、視覚と言語理解のオープンな基盤の上に研究者が構築できるようにします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。