QUICK REVIEW

[論文レビュー] Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation

Yiyang Ma, Huan Yang|arXiv (Cornell University)|Mar 16, 2023

Multimodal Machine Learning Applications被引用数 17

ひとこと要約

UMM-Diffusion は、結合したテキストと画像を統一されたマルチモーダル潜在空間にエンコードし、キャプションに従いつつ入力画像によって提供される主題を保持する画像を生成します。微調整なし。さらに拡散サンプリング中にマルチモーダルと純テキストガイダンスを融合します。

ABSTRACT

Language-guided image generation has achieved great success nowadays by using diffusion models. However, texts can be less detailed to describe highly-specific subjects such as a particular dog or a certain car, which makes pure text-to-image generation not accurate enough to satisfy user requirements. In this work, we present a novel Unified Multi-Modal Latent Diffusion (UMM-Diffusion) which takes joint texts and images containing specified subjects as input sequences and generates customized images with the subjects. To be more specific, both input texts and images are encoded into one unified multi-modal latent space, in which the input images are learned to be projected to pseudo word embedding and can be further combined with text to guide image generation. Besides, to eliminate the irrelevant parts of the input images such as background or illumination, we propose a novel sampling technique of diffusion models used by the image generator which fuses the results guided by multi-modal input and pure text input. By leveraging the large-scale pre-trained text-to-image generator and the designed image encoder, our method is able to generate high-quality images with complex semantics from both aspects of input texts and images.

研究の動機と目的

入力テキストと主題画像の両方からの統一条件付けを用いて、主題とテキストの共同条件付き画像生成を動機づけ、可能にする。
テキストと画像を単一のマルチモーダル潜在空間へエンコードして拡散ガイダンスを行う条件付けモデルを開発する。
背景/照明などの関係のない入力画像領域への過学習を、融合サンプリング手法によって緩和する。
限られたデータを扱うため、事前学習済みのテキスト-to-画像生成器を活用してモデルを初期化・訓練する。
カスタマイズ可能な主題とスタイルを備えた多様で意味的に整合した画像生成を実証する。

提案手法

TIUE（Text-and-Image Unified Encoder）を導入し、(y, x_s, p) を統一潜在 h_u にマッピングする。参照された語位置に CLIP 画像埋め込み由来の疑似語埋め込みを入力テキスト列へ挿入し、参照されていないトークンを純粋テキスト埋め込みに置換する。
TIUEを、h_u（純粋テキストの場合は h_y）で条件付けされたノイズ予測損失を用いて拡散モデルと同時に訓練し、訓練中は CLIP エンコーダを固定する。
マルチモーダルガイダンス（h_u）と純テキストガイダンス（h_y）を融合ノイズ予測を通じて結合する融合サンプリング手法を提案する。ε_f = α ε̂_u + (1−α) ε̂_y、サンプリング時には classifier-free ガイダンスと併用する。
Stable Diffusion v1-5 でモデルを初期化し、an unpooled CLIP Text Encoder を TIUE に置換、TIUE を先に訓練して拡散モデルを凍結した状態で、その後共同でファインチューニングする。
データ準備では、オブジェクト切り抜きと語位置ラベリングを用いて生成された LAION-400M のサブセット (x, y, x_s, p) を使用し、個別主題のファインチューニングなしで訓練を可能にする。

実験結果

リサーチクエスチョン

RQ1テキストと画像を単一の統一マルチモーダル潜在空間へエンコードして、拡散ベースの画像生成を導くことはできるか。
RQ2共同のテキスト・画像エンコーダは、入力画像で提供される主題を忠実に保持しつつ、キャプションに従う画像生成を可能にするか。
RQ3融合サンプリング戦略は、主題の忠実性とキャプションの整合性を維持しつつ、入力画像の背景や関係のないディテールを効果的に抑制するか。
RQ4提案手法は、ファインチューニングベースの方法（例：DreamBooth）や個別主題のファインチューニングなしの標準的なテキスト-to-画像ベースラインとどのように比較されるか。
RQ5このフレームワークで複数の画像ガイドや珍しい主題を使用する場合の制限は何か。

主な発見

本手法は、入力画像の主題を含むキャプションで説明される新しい場面を、主題固有のファインチューニングなしで生成できる。
ベースラインと比較して、本アプローチは、オンラインファインチューニングなしで DreamBooth と同様のタスクにおいて同等またはそれ以上の結果を達成する。
融合サンプリング（α が約0.5のとき）は、テキストへの準拠と主題の詳細保持の実用的なトレードオフを提供する。
複数の入力画像は複数の主題の生成を導き、それらを調和のとれた照明とスケールで一貫させた結果を生み出す。
制限として、複数の画像ガイドを使用した場合の主題特徴の混合や、珍しいまたは高度に作られた主題での歪みが生じる可能性が挙げられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。