[論文レビュー] Generating Images with Multimodal Language Models
tldr: GILL は frozen text-only LLM を pretrained image encoder/decoder に mapping network を介して組み合わせ、画像とテキストの入力を交互に処理できるようにして、テキスト生成、画像検索、そしてマルチモーダル対話における新規画像生成を可能にする。
We propose a method to fuse frozen text-only large language models (LLMs) with pre-trained image encoder and decoder models, by mapping between their embedding spaces. Our model demonstrates a wide suite of multimodal capabilities: image retrieval, novel image generation, and multimodal dialogue. Ours is the first approach capable of conditioning on arbitrarily interleaved image and text inputs to generate coherent image (and text) outputs. To achieve strong performance on image generation, we propose an efficient mapping network to ground the LLM to an off-the-shelf text-to-image generation model. This mapping network translates hidden representations of text into the embedding space of the visual models, enabling us to leverage the strong text representations of the LLM for visual outputs. Our approach outperforms baseline generation models on tasks with longer and more complex language. In addition to novel image generation, our model is also capable of image retrieval from a prespecified dataset, and decides whether to retrieve or generate at inference time. This is done with a learnt decision module which conditions on the hidden representations of the LLM. Our model exhibits a wider range of capabilities compared to prior multimodal language models. It can process image-and-text inputs, and produce retrieved images, generated images, and generated text -- outperforming non-LLM based generation models across several text-to-image tasks that measure context dependence.
研究の動機と目的
- frozen text-only LLM を再訓練せずにマルチモーダルタスクへ適用する。
- LLM の埋め込みを pretrained image generator に写像して新規画像を合成する。
- 任意に interleaved な画像とテキスト入力を処理して一貫したマルチモーダル出力を実現する。
- 推論時に画像検索と生成のどちらを選ぶか決定するメカニズムを開発する。
- 長大な言語文脈とマルチモーダル対話での性能向上をデモンストレーションする。
提案手法
- GILL を導入する:LLM と画像生成器を固定のまま、アダプタとマッピングの小さなセットを調整するフレームワーク。
- キャプション付けマッピング W_cap を学習して画像特徴を LLM の埋め込み空間に投影しキャプション生成を行う。
- LLM 内の視覚出力を表すために埋め込み行列 E_img を用いて複数の [IMG] トークンを追加する。
- GILLMapper を開発する:LLM の [IMG] 出力を画像生成器の入力空間(Stable Diffusion)へ蒸留する軽量な Transformer。
- InfoNCE 損失を用いて画像とキャプションを整列させる線形射影 W_t2i と W_i2t を用いた検索経路を訓練する。
- 他のコンポーネントが収束した後に訓練された、検索と生成のどちらを選ぶかを決定するモデルを学習する。
- キャプション生成、画像トークン予測、生成、検索の損失を結合したジョイント多目的学習損失を最適化する(l_c, l_p, l_g, l_r)。
- トレーニングには CC3M を使用し、二例 packing;バックボーン LLM は OPT-6.7B;ビジュアルバックボーンは CLIP ViT-L;生成バックボーンは Stable Diffusion v1.5;学習可能パラメータ 50M;2GPU;2日。
実験結果
リサーチクエスチョン
- RQ1凍結されたテキスト専用 LLM を image generator に効果的に grounding して、 interleaved image-text prompts に条件付けられた新規画像を生成できるか。
- RQ2最小限の学習可能なコンポーネントで、画像を検索または生成し、それをテキスト出力と共に整合的なマルチモーダル対話に挿入できるか。
- RQ3GILLMapper による grounding は、従来のテキスト-to-画像モデルと比較して長い文脈またはマルチモーダルな状況で画像生成を改善するか。
- RQ4文脈的マルチモーダル入力が画像検索と生成の決定にどのように影響するか。
主な発見
| モデル | CLIP類似度(1キャプション) | CLIP類似度(5キャプション) | CLIP類似度(5キャプ、4画像) | LPIPS(1キャプション) | LPIPS(5キャプション) | LPIPS(5キャプ、4画像) |
|---|---|---|---|---|---|---|
| GLIDE | 0.582 | 0.591 | - | 0.753 | 0.745 | - |
| Stable Diffusion | 0.592 ±0.0007 | 0.598 ±0.0006 | - | 0.703 ±0.0003 | 0.704 ±0.0004 | - |
| GILL (ours) | 0.581 ±0.0005 | 0.612 ±0.0011 | 0.641 ±0.0011 | 0.702 ±0.0004 | 0.696 ±0.0008 | 0.693 ±0.0008 |
- GILL は、交互に配置された画像-テキスト入力に基づくテキスト生成、画像検索、および新規画像生成を可能にする。
- VIST で長いマルチモーダルコンテキストを用いた場合、GILL は CLIP 類似度と LPIPS で Stable Diffusion を上回る(完全なマルチモーダルコンテキストが提供される場合に特に顕著)。
- VisDial では、対話のラウンドが増えるにつれて GILL の画像生成品質が向上し、長いコンテキストでテキストのみのベースラインを上回る。
- GILLMapper は、LLM の埋め込みを画像生成器入力空間へ写像する際に、線形/MLP/4層エンコーダを用いるベースラインを大きく上回り、FID および CLIP ベースの指標でより良い成果を達成。
- 検索 versus 生成の意思決定モデルは訓練後に学習可能であり、適切な場合には生成を有効にしつつ検索性能も競争力を持つ。
- r = 4 の [IMG] トークンを使用すると生成品質と効率のバランスが取れる。 r を増やすと、 Plateau まで性能が向上。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。