Skip to main content
QUICK REVIEW

[论文解读] SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Shanchuan Lin, Anran Wang|arXiv (Cornell University)|Feb 21, 2024
Spectroscopy Techniques in Biomedical and Chemical Research被引用 6
一句话总结

SDXL-Lightning 引入渐进式对抗扩散蒸馏,以生成高质量的一步/少步 1024px 文本到图像模型,开源为 SDXL 的 LoRA 与完整 UNet 权重。

ABSTRACT

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.

研究动机与目标

  • 通过蒸馏 SDXL,推进 1024px 的一步和 few-step 文本到图像生成。
  • 通过渐进式对抗蒸馏框架,在图像质量与模式覆盖之间取得平衡。
  • 保持概率流以维持与 LoRA 和控制插件的兼容性。
  • 提供稳定的训练技术和开源模型,便于更广泛的研究使用。

提出的方法

  • 将渐进式蒸馏与对抗损失结合,以引导学生沿着教师的扩散流进行。
  • 使用基于预训练的 SDXL U-Net 编码器在潜空间中运行的鉴别器主干。
  • 使用条件对抗损失进行训练以保留扩散流,同时使用无条件损失放宽模式覆盖。
  • 应用两阶段蒸馏日程:初始阶段对 128→32 步使用 MSE,再切换到对抗蒸馏用于 32→8→4→2→1 步。
  • 整合稳定化技术,包括多时间步训练、条件/无条件鉴别器,以及对齐训练与推理的日程修正。
Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.
Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.

实验结果

研究问题

  • RQ1渐进式对抗扩散蒸馏是否能产生高质量的一步/少步的 1024px 生成,且与 SDXL 变体相竞争甚至优于它们?
  • RQ2与基于 MSE 的蒸馏相比,对抗蒸馏是否在不牺牲模式覆盖的情况下提升质量?
  • RQ3潜在空间中鉴别器的设计如何影响稳定性以及与 LoRA 和控制插件的兼容性?
  • RQ4在高分辨率下稳定少步蒸馏需要哪些训练策略与日程调整?

主要发现

方法步数分辨率CFGLoRA
SDXL [ 44 ]25+1024pxNo-
LCM [ 36 , 37 ]4+1024pxYesYes
Turbo [ 58 ]1+512pxYesNo
Ours1+1024pxYesYes
  • 相对于先前的开源蒸馏方法,在 1024px 分辨率下实现了新的单步/少步生成的最先进水平。
  • 渐进式蒸馏保留概率流和模式覆盖;对抗损失缓解在少步生成中看到的 MSE 模糊问题。
  • 基于在潜空间运行的预训练 SDXL U-Net 编码器的鉴别器实现高效的多时间步判别并提高稳定性。
  • 该方法获得具有竞争力的 FID 和 CLIP 分数,在高分辨率细节(FID-patch)方面明显优于其他蒸馏基线。
  • 经过 LoRA 训练的蒸馏与其他基础模型兼容,可以部署为 LoRA 或完整 UNet 模型;该方法支持 ControlNet 条件。
Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.
Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。