[論文レビュー] Retrieval-Augmented Multimodal Language Modeling
RA-CM3 は外部メモリから関連するテキスト/画像を検索して生成を条件付けるリトリーバル強化型マルチモーダルモデルであり、従来モデルより学習計算量を抑えつつ、画像とテキスト生成の両方で高忠実度と新規な文脈内学習能力を実現します。
Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant text and images fetched by a retriever from external memory (e.g., documents on the web). Specifically, for the retriever, we use a pretrained CLIP, and for the generator, we train a CM3 Transformer on the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate both text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities, such as faithful image generation and multimodal in-context learning (e.g., image generation from demonstrations).
研究の動機と目的
- パラメータに固定された知識ではなく外部メモリを用いてマルチモーダル生成のスケーラブルな知識拡張を動機づける。
- 混在テキスト/画像文書をエンコードおよび検索できるマルチモーダルリトリーバーを開発する。
- retrieved multimodal documents を生成に利用できる CM3 ベースのリトリーバー付きジェネレーターを構築する。
- リトリーバル拤補が MS-COCO での画像生成とキャプション生成の両方を改善することを実証し、マルチモーダル文脈内学習のような新規能力を明らかにする。
提案手法
- 拡張 CLIP を用いた混合モーダルエンコーダを備えた_dense multimodal retriever_ を用いて外部メモリから関連するマルチモーダル文書を取得する。
- E_Q および E_M によってクエリとメモリ項目を共有密な空間で表現し、Maximum Inner Product Search (MIPS) を実現する。
- retrieved multimodal documents を入力系列の前に追加し、主系列と retrieved documents の両方を含むジョイント損失で CM3 ベースのジェネレーターを訓練する (L = L_main + α L_retr)。
- LAION からの 150M のテキスト-画像ペアを、HTML のようなマルチモーダル文書形式で 1024 の画像トークンを各画像に対して用いて RA-CM3 を訓練する。
- MS-COCO を用いてキャプション→画像生成 (FID) と画像→キャプション生成 (CIDEr) の両方を評価し、ベースラインと比較し訓練計算量の効率を測定する。
- retrieval の多様性、冗長性回避、クエリドロップアウトの影響を理解するための設計選択とアブレーションを説明する。
実験結果
リサーチクエスチョン
- RQ1リトリーバーション強化型のマルチモーダルモデルは外部のマルチモーダル文書を検索して活用することで、画像生成とテキスト生成の両方を改善できるか。
- RQ2マルチモーダルリトリーバーの構築と retrieved content をマルチモーダルジェネレーターへ統合する最良の実践は何か。
- RQ3 retrieval augmentation はテキストと画像の両モダリティを横断した文脈内学習と知識集約的な生成を可能にするか。
主な発見
- RA-CM3 は MS-COCO での画像生成とキャプション生成を大幅に改善(例:ベースラインより FID を 12、CIDEr を 17 向上)。
- RA-CM3 は比較的少ない学習計算量で高い性能を達成(同等設定で DALL-E の計算量の <30% 程度)。
- RA-CM3 はテキストと画像の両方を検索・生成できる初めてのモデルであり、新規のマルチモーダル文脈内学習能力を示す。
- 知識集約的なプロンプトに対して faithful な画像生成を示し、文脈内学習による少数ショットの画像分類を実行できる。
- リトリーバル拡張は、すべての知識をパラメータにエンコードするのではなく retrieved content の活用に焦点を当てることで学習効率を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。