QUICK REVIEW

[論文レビュー] RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Zeyue Xue, Guanglu Song|arXiv (Cornell University)|May 29, 2023

Generative Adversarial Networks and Image Synthesis被引用数 41

ひとこと要約

RAPHAELは、space-MoEとtime-MoEを介して広範な空間的・時間的拡散経路のミクスチャを用い、テキスト概念を画像領域に整合させ、最先端の品質とスタイルの多様性を達成するテキスト-to-画像拡散モデルを導入します。

ABSTRACT

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://raphael-painter.github.io/.

研究の動機と目的

テキスト概念と特定の画像領域を整合させることにより、テキスト-to-画像生成の忠実度と制御性を高める。
space-MoEとtime-MoEを活用して、何十億もの拡散経路を作成する拡散モデルを開発する。
拡散ブロックに統合されたエッジ教師付き学習により画像品質を向上させる。
多様なスタイルに対する適応性と人間の好み指標を高める。
LoRA、ControlNet、SR-GANを通じて高解像度と応用範囲の拡張性を提供する。

提案手法

U-Netベースの拡散バックボーンを16ブロックのトランスフォーマーで構成し、各ブロックには自己注意、クロス注意、space-MoE、time-MoEを含む。
Space-MoEはText Gate Networkとクロス注意マップから得られる領域マスクを用いて、各テキストトークンを領域特定のエキスパートへルーティングする。
Time-MoEはゲートネットワークを導入し、拡散タイムステップを時間エキスパートへ割り当て、ブロック内の各space-MoEの前に配置する。
Edge-supervised learningは、注意マップを画像エッジに合わせるエッジ予測ブランチを追加し、検出エッジマップに対して focal lossで訓練して質感と境界を改善する。
訓練はVAE圧縮を用いた潜在拡散設定、多スケール訓練、およびLAION-5Bベースの大規模データセットを用い、AdamWによる特定のハイパーパラメータで最適化する。
評価にはゼロショットのCOCO FID-30kとViLG-300の人間評価を含み、既存モデルと比較して画像品質とテキスト整合性を評価する。

実験結果

リサーチクエスチョン

RQ1space-MoEとtime-MoEによる大規模な拡散経路のミクスチャは、従来のクロスアテンション機構よりもテキスト-to-画像の整合性と芸術的忠実度を改善するか。
RQ2エッジ認識を取り入れた監視は、スタイルを跨いだテクスチャ忠実度と全体的な画像美学にどのように影響するか。
RQ3エキスパート数とタイムステップ数の影響は、画像品質と生成速度にどのように現れるか。
RQ43Bパラメータモデル1,000個のA100 GPUで学習した場合、SR-GANと組み合わせることで高品質な4096×6144の解像度を維持できるか。

主な発見

Model	Venue/Date	Model Type	FID-30K	Zero-shot FID-30K
DF-GAN	CVPR’22	GAN	21.42	-
DM-GAN + CL	CVPR’19	GAN	-	-
LAFITE	CVPR’22	GAN	8.12	-
Make-A-Scene	ECCV’22	Autoregressive	7.55	-
LDM	CVPR’22	Diffusion	-	12.63
GLIDE	ICML’22	Diffusion	-	12.24
DALL-E 2	arXiv’22	Diffusion	-	10.39
Stable Diffusion	CVPR’22	Diffusion	-	8.32
Muse-3B	arXiv’23	Non-Autoregressive	-	7.88
Imagen	NeurIPS’22	Diffusion	-	7.27
eDiff-I	arXiv’22	Diffusion Experts	-	6.95
ERNIE-ViLG 2.0	CVPR’23	Diffusion Experts	-	6.75
DeepFloyd	Product, May 2023	Diffusion	-	6.66
RAPHAEL	-	Diffusion Experts	-	6.61

RAPHAELはMS-COCOで新しいゼロショットFID-30k 6.61の最先端を達成。
ViLG-300の人間評価では、RAPHAELが画像品質とテキスト整合性で競合モデルを上回る。
RAPHAELは日本の漫画、リアリズム、サイバーパンク、墨絵など多様なスタイルへの強力なスタイル切替能力を示す。
1,000個のA100 GPUで2か月学習した3BパラメータモデルはSR-GANと組み合わせると高品質な4096×6144解像度を達成できる。
Space-MoEとtime-MoEの寄与はCLIP整合性の改善とFIDの低下をもたらし、アブレーションで各モジュールの正の影響を示す。
Edge-supervised learningはエッジに制約した注意マップにより、画像品質と美学をさらに高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。