Skip to main content
QUICK REVIEW

[论文解读] RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Zeyue Xue, Guanglu Song|arXiv (Cornell University)|May 29, 2023
Generative Adversarial Networks and Image Synthesis被引用 41
一句话总结

RAPHAEL 引入了一种文本到图像的扩散模型,通过 space-MoE 和 time-MoE 使用大规模的空间与时间扩散路径混合,来将文本概念与图像区域对齐,从而实现最先进的质量和风格多样性。

ABSTRACT

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://raphael-painter.github.io/.

研究动机与目标

  • 通过将文本概念与特定图像区域对齐,推动文本到图像生成的保真度和可控性。
  • 开发一种利用 space-MoE 和 time-MoE 来创建亿级扩散路径的扩散模型。
  • 通过在扩散块中整合边缘监督学习来提升图像质量。
  • 展示在多样风格下的多功能性并提升人类偏好指标。
  • 通过 LoRA、ControlNet 和 SR-GAN 提供扩展性,以达到更高分辨率和应用。

提出的方法

  • 使用基于 U-Net 的扩散骨干,包含 16 个 transformer 块;每个块包含自注意力、交叉注意力、space-MoE 和 time-MoE。
  • Space-MoE 通过 Text Gate Network 和来自交叉注意力映射的二值区域掩码,将每个文本令牌路由到区域特定专家。
  • Time-MoE 引入一个门控网络,在每个块中的 space-MoE 之前,为时间专家分配扩散时间步。
  • Edge-supervised learning 增加一个边缘预测分支,使注意力映射与图像边缘对齐,以提升纹理和边界,并以对检测到的边缘图的 focal loss 进行训练。
  • 训练采用潜在扩散设定,结合 VAE 压缩、多尺度训练,以及基于 LAION-5B 的大规模数据集;通过 AdamW 进行优化,具有特定的超参数。
  • 评估包括零-shot 的 COCO FID-30k 和 ViLG-300 人类研究,以比较图像质量和文本对齐与此前模型的差异。

实验结果

研究问题

  • RQ1通过通过 Space-MoE 和 Time-MoE 的大量扩散路径混合,能否在文本到图像对齐和艺术 fidelit y 方面超过传统的交叉注意力机制?
  • RQ2边缘感知监督如何影响不同风格下的纹理保真度和整体图像美学?
  • RQ3专家数量和时间步数对图像质量和生成速度的影响如何?
  • RQ4RAPHAEL 在跨多样风格和提示下是否仍能保持高质量,同时用单一 3B 参数模型实现可扩展性?

主要发现

  • RAPHAEL 在 MS-COCO 上实现了新的零-shot FID-30k,达到 6.61 的水平。
  • 在人类评价的 ViLG-300 上,RAPHAEL 在图像质量和文本对齐方面超过了竞争模型。
  • RAPHAEL 展现出在日本漫画、现实主义、赛博朋克和水墨画等风格下的强大风格切换能力。
  • 单一 3B 参数模型,在 1000 张 A100 GPU 上训练两个月,并结合 SR-GAN 时,能够达到高质量的 4096×6144 分辨率。
  • Space-MoE 和 Time-MoE 的贡献带来更好的 CLIP 对齐和更低的 FID,通过消融实验可见各模块的积极影响。
  • 边缘监督学习通过将注意力图约束在图像边缘,进一步提升图像质量和美学。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。