[論文レビュー] Grounding Language Models to Images for Multimodal Inputs and Outputs
FROMAGe は凍結されたテキストのみの LLM を線形マッピングと取得トークンを用いて視覚ドメインへ結びつけ、強力なゼロショットのマルチモーダル能力を持つ、相互に挿入される画像とテキストの入力・出力を可能にする。
We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
研究の動機と目的
- 大規模なテキストのみの LLM を活用して、モデル全体の微調整を伴わずにマルチモーダル理解を実現する。
- 任意に挿入された画像とテキストの入力を処理できるようにする。
- 取得した画像と組み合わせた自由形式のテキストを生成できるようにする。
- グラウンディング課題とマルチモーダル対話で強力なゼロショット性能を達成する。
- 将来のより大規模な LLM にも拡張可能な、モデルに依存しないアプローチを提供する。
提案手法
- 訓練中は言語モデルと視覚エンコーダを凍結したままにする。
- 画像とテキストの埋め込み空間を対応づける軽量な翻訳層を学習する。
- [RET] トークンを導入し、テキストから画像の検索をサポートする埋め込みを訓練する。
- 対比学習を用いた画像キャプショニングと画像-テキスト検索というマルチタスク目的で訓練する。
- 視覚埋め込みをテキスト空間へ(およびその逆へ)射影する線形マッピングを用いてクロスモダリティ相互作用を実現する。
- Conceptual Captions (CC3M) を用い、単一の 6.7B OPT バックボーンと CLIP ベースの視覚バックボーンで訓練する。
実験結果
リサーチクエスチョン
- RQ1凍結された言語モデルを視覚へ効果的にグラウンドして、相互に挿入された画像とテキストデータを処理できるだろうか?
- RQ2専用の [RET] トークンを追加することで、自己回帰型 LLM におけるテキストから画像への検索が改善されるだろうか?
- RQ3マルチモーダルな文脈(複数のキャプションと画像)が検索と生成の性能にどのような影響を与えるか?
- RQ4軽量でモデルに依存しないグラウンディング手法が、マルチモーダル出力を可能にしつつ LLM のインカレント学習をどの程度保持できるか?
主な発見
- FROMAGe は文脈的な画像検索とマルチモーダル対話で強力なゼロショット性能を達成する。
- パラメータの97%を凍結した状態で、線形マッピングと [RET] トークンのみを更新する形で、約1 GPU日で効率的に訓練される。
- [RET] トークンを追加することで検索性能が大幅に向上する(とりわけ VIST の R@1)。
- キャプションと画像を組み合わせたマルチモーダル文脈は、テキストのみの文脈より検索精度を大幅に向上させ、挿入された入力に対する感度を示す。
- FROMAGe は多くのマルチモーダル文脈の状況で CLIP を上回り、従来のモデルのいくつかがサポートしていなかった、相互に挿入された画像とテキストの出力を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。