Skip to main content
QUICK REVIEW

[論文レビュー] BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Yang Zhao, Zhijie Lin|arXiv (Cornell University)|Jul 17, 2023
Multimodal Machine Learning Applications被引用数 17
ひとこと要約

BuboGPTはテキスト・視覚・音声を対象とするマルチモーダルLLMに視覚グラウンディングを組み込み、視覚オブジェクトの細粒度のグラウンディングとモーダル間の理解を可能にする。

ABSTRACT

LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .

研究の動機と目的

  • 視覚オブジェクトと他のモダリティ間の細粒度グラウンディングを用いてLLMsを拡張することを動機づける。
  • 視覚エンティティをマルチモーダル入力と結びつけるための既成の視覚グラウンディングパイプラインを提案する。
  • テキスト–画像–音声の共同理解を可能にする2段階のマルチモーダル指示チューニングフレームワークを開発する。

提案手法

  • Recognize Anything Model (RAM) を用いて画像タグを生成するタグ付けモジュールを使用する。
  • タグから視覚エンティティを局在化するためにGrounding DINOを用いる。
  • SAMを用いてグラウンディングされたエンティティの細粒度のセマンティックマスクを取得する。
  • 視覚エンティティをモダリティ記述と結びつけるためにGPT-4ベースのエンティティマッチングモジュールを活用する。
  • モダリティエンコーダを線形射影でVicuna埋め込みと整合させるよう訓練する(画像: BLIP-2 Q-Former; 音声: ImageBind Q-Former)。
  • 二段階の訓練を適用する:(1)モダリティ特徴と語彙を整合させるための単一モダリティ事前学習、(2)高品質な画像–テキスト、音声テキスト、画像–音声テキストデータセット上で正例・負例のペアを用いた多模態指示チューニング。
Figure 1: The overall framework of BuboGPT.
Figure 1: The overall framework of BuboGPT.

実験結果

リサーチクエスチョン

  • RQ1BuboGPTはマルチモーダルチャット中に正確で有益な視覚グラウンディングを提供できるか?
  • RQ2モデルは任意の入力モダリティの組み合わせを処理し、整合性のある応答を生成できるか?
  • RQ3ネガティブな画像–音声ペアの含有が跨モーダル理解にどのような影響を与えるか?

主な発見

  • モデルはテキスト記述に対応する特定の画像領域を指すことで細粒度のグラウンディングを示す。
  • BuboGPTは音声内容を説明し、入力が不一致の場合を含めて画像内の音源を局在化する。
  • 訓練時にネガティブな画像–音声ペアを用いるとグラウンディング性能が向上し、非事実的な応答が減る。
  • 任意のモダリティ組み合わせ、未整合の入力を含めても跨モーダル理解を維持する。
Figure 2: The pipeline of visual grounding that is composed of a tagging module, a grounding module and a entity-matching module.
Figure 2: The pipeline of visual grounding that is composed of a tagging module, a grounding module and a entity-matching module.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。