[论文解读] Diffusion Models Beat GANs on Image Synthesis
带有架构改进和分类器引导的扩散模型在图像合成方面达到了最先进水平,超越了在若干基准上的GAN,并在较少的采样步骤下实现了高保真度。
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128$ imes$128, 4.59 on ImageNet 256$ imes$256, and 7.72 on ImageNet 512$ imes$512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256$ imes$256 and 3.85 on ImageNet 512$ imes$512. We release our code at https://github.com/openai/guided-diffusion
研究动机与目标
- 证明扩散模型在多数据集和多分辨率的无条件生成任务中,能够在图像合成质量上超越GAN。
- 识别能在大规模下提升扩散模型样本质量的架构改进。
- 开发一个分类器引导采样机制,以在条件图像合成中权衡样本保真度与多样性。
- 探究分类器引导与上采样扩散模型的协同作用,以进一步提升质量。
提出的方法
- 采用改进的UNet型扩散架构,增加深度、带有多分辨率注意力、BigGAN风格的上/下采样,以及自适应组归一化以注入时间步和类别信息。
- 在ImageNet上以128x128、256x256和512x512训练扩散模型,并使用FID及相关指标进行评估。
- 通过在带噪声的样本上训练分类器p_phi(y|x_t)并用log p_phi(y|x_t)的梯度来引导扩散采样(包含梯度缩放参数s)引入分类器引导。
- 推导条件采样公式,展示分类器梯度如何改变反向去噪过程的均值,并提供用于分类器引导生成的实用采样算法(有无DDIM)。
- 比较无条件引导、条件引导和上采样扩散堆栈,以量化保真度与多样性之间的权衡。
- 在LSUN和ImageNet任务上与最先进的生成模型进行比较,并通过召回率和精度评估覆盖率。)
实验结果
研究问题
- RQ1扩散模型是否能够在标准基准上无条件任务实现超过GAN的图像合成质量?
- RQ2哪些架构变更在高分辨率下最能提升扩散模型的样本质量?
- RQ3如何利用分类器引导对扩散模型进行条件化,以及梯度缩放如何影响保真度与多样性?
- RQ4将分类器引导与上采样扩散模型结合是否能带来相对于单一方法的互补收益?
主要发现
- 包括更深广度的多分辨率注意力和BigGAN风格的上/下采样在内的架构改进,显著提高ImageNet 128x128的FID并扩展到更高分辨率。
- 自适应归一化注入时间步和类别信息(AdaGN)相较基线投影块进一步提高了FID。
- 带梯度缩放因子的分类器引导可以显著提升样本保真度和类别一致性,在某些设置下仅需25步扩散即可实现高质量的条件生成。
- 引导的无条件模型的FID接近引导的条件模型的FID,而引导的条件模型进一步提高FID,表明条件引导的显著收益。
- 引导和上采样是互补的,结合ADM-G和ADM-U在ImageNet-256和-512任务中实现了FID和召回率的最佳权衡。
- 在各任务中,带引导的扩散模型在LSUN和ImageNet测试中達到最先进的FID和sFID,常常超过BigGAN-deep,并在分布覆盖率(召回)方面优于同类GAN方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。