[論文レビュー] MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning
MMICLは、複数の画像とテキストが混在するプロンプトを処理できるマルチモーダル・インコンテキスト学習フレームワークを導入し、一般的なビジョン-ランゲージタスクにおけるゼロショットの最先端性能を達成し、言語バイアスを低減します。
Since the resurgence of deep learning, vision-language models (VLMs) enhanced by large language models (LLMs) have grown exponentially in popularity. However, while LLMs can utilize extensive background knowledge and task information with in-context learning, most VLMs still struggle with understanding complex multi-modal prompts with multiple images, making VLMs less effective in downstream vision-language tasks. In this paper, we address the limitation above by 1) introducing vision-language Model with Multi-Modal In-Context Learning(MMICL), a new approach to allow the VLM to deal with multi-modal inputs efficiently; 2) proposing a novel context scheme to augment the in-context learning ability of the VLM; 3) constructing the Multi-modal In-Context Learning (MIC) dataset, designed to enhance the VLM's ability to understand complex multi-modal prompts. Our experiments confirm that MMICL achieves new state-of-the-art zero-shot performance on a wide range of general vision-language tasks, especially for complex benchmarks, including MME and MMBench. Our analysis demonstrates that MMICL effectively tackles the challenge of complex multi-modal prompt understanding and emerges the impressive ICL ability. Furthermore, we observe that MMICL successfully alleviates language bias in VLMs, a common issue for VLMs that often leads to hallucination when faced with extensive textual context. Our code, dataset, dataset tool, and model are available at https://github.com/PKUnlp-icler/MIC
研究の動機と目的
- 複数の画像とテキストを含む複雑なマルチモーダルプロンプトを理解するビジョン-ランゲージモデルの限られた能力に対処する。
- 新しいコンテキストスキームを介して多画像とテキスト情報を効率的に統合するMMICLを提案する。
- マルチモーダル・インコンテキスト学習能力を訓練・評価するMICデータセットを作成する。
- MMICLが最先端のゼロショット性能を達成し、VLMsの言語バイアスを緩和することを示す。
提案手法
- 画像を一意の代理トークンで参照する画像宣言を用いて、画像とテキストの表現を等しく扱う。
- 視覚エンコーダとQ-formerを視覚的プロンプト生成器として用い、視覚埋め込みを生成し、LLMの埋め込み空間に射影する。
- テキストを特定の画像に結びつける画像宣言機構を導入し、複数画像とテキストから画像への参照処理を可能にする。
- ビデオと画像からマルチイメージデータを抽出して、5.8百万サンプルのMulti-modal In-context learning (MIC)データセットを構築する。
- 2段階のトレーニングパラダイムを採用する: (i) 画像とテキスト埋め込みを整合させる事前学習(vision encoderとLLMは凍結、VPGと射影は学習可能); (ii) 凍結された成分でのマルチモーダル・インコンテキストチューニングと、射影ベクトルおよびクエリ/バリューベクトルの共同訓練。
- 多様なタスクに対して一貫したマルチモーダル・インコンテキスト形式を開発し、インコンテキストデータを豊かにするために多様な指示と例を生成する。

実験結果
リサーチクエスチョン
- RQ1複数の画像とテキスト参照を含む複雑なマルチモーダルプロンプトを効果的に理解するようにVLMをどのように拡張できるか?
- RQ2画像宣言と画像代理を用いた新しいコンテキストスキームは、VLMにおけるテキストから画像への参照理解や画像間の関係を改善できるか?
- RQ3マルチモーダル・インコンテキストチューニングは、言語バイアスを低減しつつ、さまざまなビジョン-ランゲージベンチマークでゼロショットおよび少数ショットの性能を向上させるか?
主な発見
- MMICLは、特にMMEとMMBenchで、いくつかのビジョン-ランゲージベンチマークにおいて新しいゼロショットの最先端性能を達成します。
- MMICLはテキストから画像への参照を理解する能力が高く、Winogroundでの改善、RAVENでの画像間関係理解の改善を示します。
- MMICLはVizWizなど他のデータセットで少数ショットの改善を含む、タスクを跨る効果的なマルチモデル・インコンテキスト学習を示します。
- MMICLはビジョン-ランゲージモデルの言語バイアスを低減し、他のモデルが苦戦する場面でも広範なテキストコンテキストで性能を維持します。
- アブレーション研究は、Stage IIのマルチモーダル・インコンテキストチューニングを複数のデータセットとモデルサイズで組み込むことによって、顕著な効果を示すことを明らかにした。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。