Skip to main content
QUICK REVIEW

[論文レビュー] Large Language Models are Visual Reasoning Coordinators

Liangyu Chen, Bo Li|arXiv (Cornell University)|Oct 23, 2023
Multimodal Machine Learning Applications被引用数 14
ひとこと要約

Cola はコーディネータLLMを用いて複数の視覚言語モデルを統合し視覚推論を行い、Cola-FTによる指示学習とCola-Zeroによる文脈内学習を通じて、いくつかのVQAおよび視覚推論のベンチマークで最先端の結果を達成している。

ABSTRACT

Visual reasoning requires multimodal perception and commonsense cognition of the world. Recently, multiple vision-language models (VLMs) have been proposed with excellent commonsense reasoning ability in various domains. However, how to harness the collective power of these complementary VLMs is rarely explored. Existing methods like ensemble still struggle to aggregate these models with the desired higher-order communications. In this work, we propose Cola, a novel paradigm that coordinates multiple VLMs for visual reasoning. Our key insight is that a large language model (LLM) can efficiently coordinate multiple VLMs by facilitating natural language communication that leverages their distinct and complementary capabilities. Extensive experiments demonstrate that our instruction tuning variant, Cola-FT, achieves state-of-the-art performance on visual question answering (VQA), outside knowledge VQA, visual entailment, and visual spatial reasoning tasks. Moreover, we show that our in-context learning variant, Cola-Zero, exhibits competitive performance in zero and few-shot settings, without finetuning. Through systematic ablation studies and visualizations, we validate that a coordinator LLM indeed comprehends the instruction prompts as well as the separate functionalities of VLMs; it then coordinates them to enable impressive visual reasoning capabilities.

研究の動機と目的

  • 多様なVLMを用いて視覚推論を動機づけ、それらの相補的な強みを活用する。
  • Cola を提案する。VLMのキャプションともっともらしい回答を統合するためにLLMを用いるコーディネーターベースのパラダイム。
  • Cola-FT(指示調整されたLLM)が複数のデータセットでSOTAを達成することを示す。
  • Cola-Zero(文脈内学習)がファインチューニングなしで競争力のあるゼロショット/少数ショットの性能を提供することを示す。
  • コーディネータが個々のVLMの機能を活用する方法を学習する仕組みの分析を提供する。

提案手法

  • 画像キャプションともっともらしい回答を生成するために、OFAとBLIPを視覚言語モデルとして用いる。
  • 画像-質問の文脈でVLMをプロンプトし、キャプション c_i(v) ともっともらしい回答 â_i(v,q) を得る。
  • VLMキャプションともっともらしい回答をVLMラベル付きで含む joint Prompt(v,q) を構築し、LLMコーディネータに入力する。
  • 次のトークン予測とteacher forcingでコーディネータLLM(Cola-FT)をファインチューニングし、VLMは固定のままにする。
  • 代わりに、パラメータ更新なしでプロンプト内のkショットデモンストレーションを用いた文脈内学習でCola-Zeroを有効にする。

実験結果

リサーチクエスチョン

  • RQ1コーディネータLLMは複数のVLMの出力を効果的に統合して視覚推論を改善できるか。
  • RQ2指示調整(Cola-FT)と文脈内学習(Cola-Zero)は、性能・効率・スケーラビリティの点でどのように比較されるか。
  • RQ3VLM出力のどの側面(キャプション vs. もっともらしい回答)がコーディネータの意思決定に最も寄与するか。
  • RQ4Colaは異なる視覚推論タスクとデータセットにどれだけうまく移行できるか。

主な発見

  • Cola-FTはA-OKVQA、OK-VQA、e-SNLI-VE、VSRを含む複数のデータセットで最先端の性能を達成する。
  • Cola-Zeroはファインチューニングなしで競争力のあるゼロショットおよび少数ショットの性能を示す。文脈内学習を活用。
  • VLMのキャプションともっともらしい回答の両方を用いると強力な信号を提供する;とくにもっともらしい回答はコーディネータの指示に対して特に影響力がある。
  • コーディネータLLMは各VLMの異なる機能を識別・活用することを学習し、単一VLMベースラインや単純アンサンブルより推論を改善する。
  • より多くのVLMでColaをスケールすると著しい改善が得られる。Cola-FT は指示調整の恩恵を受け、Cola-Zero はより大きなLLMスケールで新たな能力を示す。
  • 定性的分析と顕著性の視覚化は、コーディネータがプロンプトをどのように解釈し、VLM出力の中からどのように選択するかを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。