QUICK REVIEW

[論文レビュー] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Chitwan Saharia, William Chan|arXiv (Cornell University)|May 23, 2022

Multimodal Machine Learning Applications被引用数 2,103

ひとこと要約

Imagen は凍結された大型言語モデルエンコーダと拡散モデルを組み合わせてフォトリアリスティックなテキストから画像生成と画像-テキスト整合性を達成し、COCOとDrawBenchで従来法を上回る。動的閾値設定と DrawBench を評価に導入。

ABSTRACT

We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusion models in high-fidelity image generation. Our key discovery is that generic large language models (e.g. T5), pretrained on text-only corpora, are surprisingly effective at encoding text for image synthesis: increasing the size of the language model in Imagen boosts both sample fidelity and image-text alignment much more than increasing the size of the image diffusion model. Imagen achieves a new state-of-the-art FID score of 7.27 on the COCO dataset, without ever training on COCO, and human raters find Imagen samples to be on par with the COCO data itself in image-text alignment. To assess text-to-image models in greater depth, we introduce DrawBench, a comprehensive and challenging benchmark for text-to-image models. With DrawBench, we compare Imagen with recent methods including VQ-GAN+CLIP, Latent Diffusion Models, and DALL-E 2, and find that human raters prefer Imagen over other models in side-by-side comparisons, both in terms of sample quality and image-text alignment. See https://imagen.research.google/ for an overview of the results.

研究の動機と目的

凍結してスケールさせた大規模テキストエンコーダが、拡散モデルのスケーリング単独よりも、テキストから画像の忠実度と整合性を向上させることを実証する。
テキストのみデータで事前学習した大規模凍結言語モデルが、画像合成の効果的なテキストエンコーダになり得ることを示す。
高ガイダンス重みをフォトリアリズムと忠実度の両立のために、サンプリングとアーキテクチャ技術を導入する。
DrawBench を、COCO を超えたテキストから画像モデルを評価する包括的ベンチマークとして提案する。
大規模テキスト生成モデルとデータ使用の倫理的配慮と社会的影響を評価する。

提案手法

入力テキストを埋め込みへマッピングするために凍結済みテキストエンコーダ（事前学習済み T5 変種、BERT、CLIP）を用い、エンコーダの重みは固定のままにする。
テキスト埋め込みを条件づけとするベースの 64x64 モデルと、2 つの超解像拡散モデル（64x64→256x256、256x256→1024x1024）からなるカスケード拡散パイプラインを採用する。
飽和を避け忠実度を向上させるため、動的閾値設定と組み合わせた高いガイド重みを用いた分類子なしガイダンスを適用する。
拡散モデルのメモリ効率と収束速度を向上させる Efficient U-Net を導入する。
アーティファクトに対する頑健性を向上させ、より強いテキスト条件付けを実現するため、超解像モデルにノイズ条件付けの拡張を組み込む。
COCO FID-30K および CLIP 敵対性指標に加え、大規模な人間評価と DrawBench ベンチマークを用いて評価する。

実験結果

リサーチクエスチョン

RQ1凍結されたテキストエンコーダのサイズを拡大することは、拡散モデルのサイズを拡大することよりも、画像の忠実度と画像-テキスト整合性の向上に大きな効果をもたらすのか？
RQ2ダイナミック閾值設定を用いた拡散モデルで高いガイダンス重みを効果的に使用して、忠実度を犠牲にせずフォトリアリズムを改善できるのか？
RQ3大規模な事前学習言語モデルは、CLIP のようなマルチモーダルテキストエンコーダと比較して、テキストから画像合成を推進する際にどのような差を生むのか？
RQ4Efficient U-Net やクロス・アテンションを用いたテキスト条件付けなどのアーキテクチャの選択が、拡散ベースのテキストから画像生成に与える影響はどうなるのか？
RQ5DrawBench のような包括的ベンチマークは、COCO を超えたテキストから画像モデルの強みと弱みをどのように可視化するのか？

主な発見

モデル	FID-30K	ゼロショット
AttnGAN	35.49
DM-GAN	32.64
DF-GAN	21.42
DM-GAN + CL	20.79
XMC-GAN	9.33
LAFITE	8.12
Make-A-Scene	7.55
DALL-E		17.89
LAFITE (CLIP+G)	26.94
GLIDE	12.24
DALL-E 2	10.39
Imagen (Our Work)	7.27

テキストエンコーダのサイズ拡大は、画像-テキストの整合性と忠実度の両方に一貫した改善をもたらす。T5-XXL が最良の結果を達成。
テキストエンコーダのスケールは、拡散モデルのサイズを増やすことよりも大きな影響を与える。
高いガイダンス重みを用いた動的閾値設定は、固定閾値や閾値なしよりも、フォトリアリズムと整合性を格段に向上させる。
超解像段階でのノイズ条件付けの拡張は、強力なテキスト条件付けと高品質なアップサンプリングにとって極めて重要。
Imagen は、報告された結果でゼロショットのCOCO FID 7.27 を達成し、GLIDE や DALL-E 2 を上回り、ヒト評価者は COCO キャプションと整合性が同等。
DrawBench 評価では、Imagen が忠実度と画像-テキスト整合性の両方で競合他社を上回り、カテゴリ横断でヒト評価者が Imagen を好む。
大規模な凍結言語モデルをテキストエンコーダとして用いることはテキストから画像生成に有効であり、クロスアテンション条件付けは単純なプーリング手法より優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。