QUICK REVIEW
[论文解读] SDXL-Lightning: Progressive Adversarial Diffusion Distillation
Shanchuan Lin, Anran Wang|arXiv (Cornell University)|Feb 21, 2024
Spectroscopy Techniques in Biomedical and Chemical Research被引用 6
一句话总结
SDXL-Lightning 引入渐进式对抗扩散蒸馏,以生成高质量的一步/少步 1024px 文本到图像模型,开源为 SDXL 的 LoRA 与完整 UNet 权重。
ABSTRACT
We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.
研究动机与目标
- 通过蒸馏 SDXL,推进 1024px 的一步和 few-step 文本到图像生成。
- 通过渐进式对抗蒸馏框架,在图像质量与模式覆盖之间取得平衡。
- 保持概率流以维持与 LoRA 和控制插件的兼容性。
- 提供稳定的训练技术和开源模型,便于更广泛的研究使用。
提出的方法
- 将渐进式蒸馏与对抗损失结合,以引导学生沿着教师的扩散流进行。
- 使用基于预训练的 SDXL U-Net 编码器在潜空间中运行的鉴别器主干。
- 使用条件对抗损失进行训练以保留扩散流,同时使用无条件损失放宽模式覆盖。
- 应用两阶段蒸馏日程:初始阶段对 128→32 步使用 MSE,再切换到对抗蒸馏用于 32→8→4→2→1 步。
- 整合稳定化技术,包括多时间步训练、条件/无条件鉴别器,以及对齐训练与推理的日程修正。

实验结果
研究问题
- RQ1渐进式对抗扩散蒸馏是否能产生高质量的一步/少步的 1024px 生成,且与 SDXL 变体相竞争甚至优于它们?
- RQ2与基于 MSE 的蒸馏相比,对抗蒸馏是否在不牺牲模式覆盖的情况下提升质量?
- RQ3潜在空间中鉴别器的设计如何影响稳定性以及与 LoRA 和控制插件的兼容性?
- RQ4在高分辨率下稳定少步蒸馏需要哪些训练策略与日程调整?
主要发现
| 方法 | 步数 | 分辨率 | CFG | LoRA |
|---|---|---|---|---|
| SDXL [ 44 ] | 25+ | 1024px | No | - |
| LCM [ 36 , 37 ] | 4+ | 1024px | Yes | Yes |
| Turbo [ 58 ] | 1+ | 512px | Yes | No |
| Ours | 1+ | 1024px | Yes | Yes |
- 相对于先前的开源蒸馏方法,在 1024px 分辨率下实现了新的单步/少步生成的最先进水平。
- 渐进式蒸馏保留概率流和模式覆盖;对抗损失缓解在少步生成中看到的 MSE 模糊问题。
- 基于在潜空间运行的预训练 SDXL U-Net 编码器的鉴别器实现高效的多时间步判别并提高稳定性。
- 该方法获得具有竞争力的 FID 和 CLIP 分数,在高分辨率细节(FID-patch)方面明显优于其他蒸馏基线。
- 经过 LoRA 训练的蒸馏与其他基础模型兼容,可以部署为 LoRA 或完整 UNet 模型;该方法支持 ControlNet 条件。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。