[论文解读] Simple diffusion: End-to-end diffusion for high resolution images
该论文提出一个单阶段、端到端的扩散模型,通过调整噪声时间表、在低分辨率处的架构缩放、定向 dropout 和下采样策略来生成高分辨率图像(高达 512x512),在不使用采样修饰的情况下达到最先进的结果。
Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.
研究动机与目标
- 激发基于扩散的高分辨率图像生成模型,避免潜在空间或级联超分辨率。
- 提出对标准扩散的简单、定向修改,以提升高分辨率下的性能。
- 展示高分辨率图像(高达512x512)的端到端训练与采样。
- 与现有扩散方法进行比较,并在 ImageNet 上无需采样修饰地确立最先进结果。
提出的方法
- 通过相对于参考分辨率移动对数信噪比来调整更高分辨率图像的噪声时间表。
- 在训练过程中使用多尺度训练损失以平衡低频和高频信息。
- 主要在16x16分辨率处对架构进行扩展,以提升利用率和性能。
- 引入高分辨率特征图的下采样(通过 DWT 或分块)以在保持质量的同时避免内存爆炸。
- 在较低分辨率块上有选择性地加入 dropout 以正则化而不损害高分辨率层。
- 将 U-ViT 架构(带视觉 Transformer 主干的 U-Net)作为增强主干选项。
实验结果
研究问题
- RQ1如何在没有潜在空间或级联超分辨率的情况下,对高分辨率图像进行端到端训练的标准扩散模型?
- RQ2对噪声时间表、架构缩放、正则化和下采样进行哪些简单修改就能在高分辨率下获得最先进的结果?
- RQ3单一扩散模型能否达到或超过分阶段或潜变量方法在 ImageNet 规模生成上的表现?
- RQ4使用 U-ViT 主干与传统 U-Net 在高分辨率扩散中的影响有多大?
- RQ5在高分辨率下,单阶段扩散模型的文本条件性能如何?
主要发现
- 通过分辨率移动扩散噪声时间表可以提升样本质量,尤其在 256x256 与 512x512 时。
- 主要在 16x16 分辨率块进行扩展,并可选地使用 U-ViT 主干,带来出色性能。
- 在较低分辨率块上有选择性地使用 dropout,可正则化模型而不降低高分辨率层的表现。
- 对高分辨率特征图进行下采样(通过 DWT 或卷积下采样)显著加速训练并可提升样本质量。
- 应用这些改动的单个端到端扩散模型在 ImageNet 上达到最先进的 FID,而无需采样修饰。
- 在文本到图像任务中,带条件的单阶段扩散模型可接近或超越在 COCO/相关基准上的若干先前模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。