Skip to main content
QUICK REVIEW

[论文解读] Text-to-image Diffusion Models in Generative AI: A Survey

Chenshuang Zhang, Chaoning Zhang|arXiv (Cornell University)|Mar 14, 2023
Artificial Intelligence in Games被引用 74
一句话总结

对文本到图像扩散模型的综合综述,涵盖其基础、开创性的像素空间和潜在空间方法、引导技术、改进、评估以及超越图像生成的应用。

ABSTRACT

This survey reviews the progress of diffusion models in generating images from text, ~ extit{i.e.} text-to-image diffusion models. As a self-contained work, this survey starts with a brief introduction of how diffusion models work for image synthesis, followed by the background for text-conditioned image synthesis. Based on that, we present an organized review of pioneering methods and their improvements on text-to-image generation. We further summarize applications beyond image generation, such as text-guided generation for various modalities like videos, and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.

研究动机与目标

  • 介绍扩散模型的基础知识与用于条件图像合成的引导。
  • 回顾开创性的文本到图像扩散框架及其潜在/像素空间策略。
  • 总结提升文本对齐、布局控制和基于检索的方法的改进。
  • 讨论评估指标、伦理考虑以及超越图像生成的应用。
  • 概述扩散驱动的 T2I 系统的挑战与未来方向。

提出的方法

  • 解释扩散模型及前向/后向去噪过程的关键方程(例如 q(x_t|x_0) 和 E_t[λ(t)||ε−ε_θ(x_t,t)||^2])。
  • 描述引导方法包括无分类器引导和基于 CLIP 的跨模态引导,或其他跨模态引导。
  • 区分像素空间与潜在空间扩散框架,并总结代表性模型(GLIDE、Imagen、Stable Diffusion、DALL-E 2)。
  • 讨论如空间控制、文本反演、检索增强扩散与扩散先验等的改进。
  • 概述评估指标(FID、CLIP score、IS、R-precision)与人工基准,以及伦理风险考量。

实验结果

研究问题

  • RQ1哪些核心机制使文本条件下的扩散模型能够进行图像合成?
  • RQ2像素空间与潜在空间的扩散方法在保真度与文本-图像对齐方面有何差异?
  • RQ3哪些引导与条件技术在提高文本到图像质量与可控性方面最有效?
  • RQ4如何应对扩散驱动的 T2I 系统中的分布外提示与罕见实体?
  • RQ5文本到图像扩散模型的主要伦理风险与评估策略是什么?

主要发现

模型FID
CogView27.10
LAFITE26.94
DALL-E17.89
GLIDE12.24
Imagen7.27
Stable Diffusion12.63
VQ-Diffusion13.86
DALL-E 210.39
Upainting8.34
ERNIE-ViLG 2.06.75
eDiff-I6.95
  • 在 MS-COCO 上的代表性模型的 FID 分数显示 DALL-E 2 达到 10.39,而 Imagen 达到 7.27,GLIDE 为 12.24。
  • Stable Diffusion(潜在空间)在对齐文本方面具有竞争力的保真度(FID 12.63)。
  • ERNIE-ViLG 2.0 在 FID 中达到 6.75,表明在所调查模型中表现出色。
  • 检索增强方法(RDM、KNN-diffusion、Re-Imagen)提升了分布外表现。
  • 在若干设置中,分类器无引导引导通常优于使用 CLIP 指导方法的样本保真度与文本-图像对齐。
  • 跨模态引导与大型语言模型在结合扩散先验时可提升字幕保真度与场景复杂度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。