[論文レビュー] ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
ChatBridge は、言語カタリストとして大規模言語モデルを用い、画像、動画、音声のモダリティを言語でペアリングされた2モダリティデータだけで結びつけ、2段階のトレーニングと MULTIS インストラクションチューニングの後にゼロショットのマルチモーダルタスクを実現する。
Building general-purpose models that can perceive diverse real-world modalities and solve various tasks is an appealing target in artificial intelligence. In this paper, we present ChatBridge, a novel multimodal language model that leverages the expressive capabilities of language as the catalyst to bridge the gap between various modalities. We show that only language-paired two-modality data is sufficient to connect all modalities. ChatBridge leverages recent large language models (LLM) and extends their zero-shot capabilities to incorporate diverse multimodal inputs. ChatBridge undergoes a two-stage training. The first stage aligns each modality with language, which brings emergent multimodal correlation and collaboration abilities. The second stage instruction-finetunes ChatBridge to align it with user intent with our newly proposed multimodal instruction tuning dataset, named MULTIS, which covers a wide range of 16 multimodal tasks of text, image, video, and audio modalities. We show strong quantitative and qualitative results on zero-shot multimodal tasks covering text, image, video, and audio modalities. All codes, data, and models of ChatBridge will be open-sourced.
研究の動機と目的
- すべてのモダリティを組み合わせたペアデータをすべて必要とせず、複数のモダリティを知覚し推論できる汎用モダリティアシスタントの構築を促す。
- モダリティを言語と整列させるための2段階のトレーニングパイプラインを提案し、その後 MULTIS でユーザーの意図に対してインストラクションチューニングを行う。
- 16 のタスクカテゴリーとテキスト、画像、動画、音声にまたがる 15 のデータセットを含む、マルチモーダルインストラクションチューニングデータセット MULTIS を作成する。
提案手法
- 各モダリティを LLM の意味空間にマッピングする共有ペルセーバーを用いて、モダリティ特化のエンコーダを統合する。
- 凍結された Vicuna-13B LLM を用い、計算を削減するためにペルセーバーとそれらのクエリトークンのみを訓練する。
- ステージ1では、画像-テキスト、動画-テキスト、音声-テキストのペアを公開データセットから用いて、モダリティと言語の整列を事前訓練する。
- ステージ2では MULTIS に対してマルチモーダルインストラクションチューニングを適用し、マルチモーダルタスクのゼロショット一般化を向上させる。
実験結果
リサーチクエスチョン
- RQ1LLMは言語カタリストとして、言語でペアリングされた2モダリティデータだけで複数のモダリティを橋渡しできるか?
- RQ22段階のトレーニングと MULTIS により、テキスト、画像、動画、音声タスク全体で強力なゼロショット性能が得られるか?
- RQ3マルチモーダル推論と対話に対して、MULTIS インストラクションチューニングはどのような定性的・定量的な効果を提供するか?
- RQ4単一モダリティの LLM ベースのベースラインと比較した際、ChatBridgeはマルチモーダルチャット設定でどの程度の性能を示すか?
主な発見
- ChatBridge は、テキスト、画像、動画、音声にまたがる単一モダリティおよびマルチモーダルタスクで強力なゼロショット性能を達成する。
- INSTRUCTION TUNING with MULTIS yields notable gains in certain tasks, e.g., MSVDQA accuracy improves by 21.8%.
- In multimodal input tasks, combining video and audio outperforms single-modality inputs, validating cross-modal correlation.
- ChatBridge surpasses several frozen-LMM baselines in image-based multimodal chat but lags end-to-end fine-tuned LLMs like LLaVA on some benchmarks.
- Qualitative analyses show ChatBridge can handle multimodal instructions, complex reasoning, and multi-turn conversations.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。