[論文レビュー] eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers
eDiff-I は拡散ベースのテキストから画像生成の異なる段階に特化したエキスパートデノイザーのアンサンブルを訓練し、推論コストを増やすことなくテキスト整合性を改善し、複数のエンコーダと paint-with-words 能力を活用します。
Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiff-I, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiff-I's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiff-I/
研究の動機と目的
- 拡散ベースのテキストから画像生成における異なる合成段階を捉える必要性を動機づける。
- テキスト整合性を改善し推論コストを維持するため、異なるノイズレベルに特化したエキスパートデノイザーのアンサンブルを提案する。
- 多様な条件付けエンコーダ(T5、CLIP text、CLIP image)を用いた条件付けの多様性の利点を調査する。
- 学習コストを過度に増やさずにアンサンブルを拡張する訓練効率的なファインチューニング戦略を導入する。
- 生成の空間的配置を制御するためのトレーニング不要な paint-with-words の仕組みを紹介する。
提案手法
- 基礎となる拡散モデルを訓練し、ノイズレベル区間に対応する専門デノイザーへと段階的に分岐させる。
- バイナリツリーの分岐体系を用いて、分割ノイズ分布に関して専門モデルを初期化・ファインチューニングし、極端(高/低)および中間の区間に焦点を当てる。
- 複数の入力埋め込み(T5 テキスト、CLIP テキスト、CLIP 画像)をクロスアテンションとドロップアウトで組み合わせ、多様な条件付けを形成する。
- ユーザーが描画したマスクでクロスアテンションを調整し、空間的レイアウトを制御するトレーニングなしの paint-with-words 機構を組み込む。
- トレーニング時の劣化を伴う一連の拡散モデル(ベース 64x64、SR256、SR1024)をデプロイし、超解像段階での一般化を高める。
- COCOとVisual Genomeでゼロショット FID-CLIP のトレードオフを評価し、最先端ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1エキスパートデノイザーのアンサンブルは推論コストを増やさずにテキストから画像への整合性を改善できるか?
- RQ2複数の条件付けエンコーダ(T5、CLIP テキスト、CLIP 画像)は画像の品質とスタイル転送能力にどう影響するか?
- RQ3訓練不要な paint-with-words 機構は生成出力の実用的な空間制御を提供できるか?
- RQ4標準的なテキスト-to-image ベンチマークで、eDiff-I のパフォーマンス向上は単一モデルのベースラインよりどれほどか?
主な発見
| Model | # of params | Zero-shot FID |
|---|---|---|
| GLIDE | 0.5B | 12.24 |
| Make-A-Scene | 0.4B | 11.84 |
| DALL·E 2 | 6.5B | 10.39 |
| Stable Diffusion | 1.4B | 8.59 |
| Imagen | 7.9B | 7.27 |
| Parti | 20B | 7.23 |
| eDiff-I-Config-A | 6.8B | 7.35 |
| eDiff-I-Config-B | 7.1B | 7.26 |
| eDiff-I-Config-C | 8.1B | 7.11 |
| eDiff-I-Config-D | 9.1B | 6.95 |
- The 2-Expert-Ensemble consistently improves the FID-CLIP trade-off over the baseline across COCO and Visual Genome datasets.
- eDiff-I achieves competitive zero-shot FID while maintaining inference cost comparable to single-model diffusion.
- Using a combination of T5 and CLIP text encoders yields best performance, with CLIP image embeddings enabling style transfer.
- Paint-with-words provides spatial control by modulating cross-attention with user-provided masks, without additional training.
- Training-efficient branching (starting from a shared base, then finetuning left/right/high-noise extremes and a middle expert) reduces training cost while expanding capacity.
- Compared against large baselines, eDiff-I variants (Config A-D) achieve progressively better zero-shot FID, with Config D reaching 6.95 zero-shot FID for the reported setup.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。