Skip to main content
QUICK REVIEW

[논문 리뷰] SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Shanchuan Lin, Anran Wang|arXiv (Cornell University)|2024. 02. 21.
Spectroscopy Techniques in Biomedical and Chemical Research인용 수 6
한 줄 요약

SDXL-Lightning은 점진적 적대적 확산 증류를 도입하여 고품질의 1단계/소수단계 1024px 텍스트-이미지 모델을 만들어내고, LoRA 및 SDXL용 전체 UNet 가중치로 오픈소스화됩니다.

ABSTRACT

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.

연구 동기 및 목표

  • SDXL를 증류하여 1024px에서 1단계 및 소수 단계의 텍스트-이미지 생성을 향상시키다.
  • 진행형-적대적 증류 프레임워크를 통해 이미지 품질과 모드 커버리지를 균형 있게 달성한다.
  • LoRA 및 제어 플러그인과의 호환성을 유지하기 위해 확률 흐름을 보존한다.
  • 더 넓은 연구 활용을 위한 안정적인 학습 기술과 오픈 소스 모델을 제공한다.

제안 방법

  • 교사의 확산 흐름을 따르도록 학생을 이끄는 진행형 증류와 적대적 손실을 결합한다.
  • 잠재 공간에서 작동하는 사전 학습된 SDXL U-Net 인코더를 기반으로 한 판별기 백본을 사용한다.
  • 흐름 보존을 위한 조건부 적대적 손실과 모드 커버리지를 완화하는 무조건부 손실로 학습한다.
  • 두 단계 증류 일정 적용: 초기 128→32 스텝에서 MSE로 시작하고, 이후 32→8→4→2→1 스텝에 대해 적대적 증류로 전환한다.
  • 학습과 추론을 정렬하기 위한 일정 수정과 다중 타임스텝 학습, 조건부/무조건부 판별기 등 안정화 기법을 도입한다.
Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.
Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.

실험 결과

연구 질문

  • RQ1진행형 적대적 확산 증류가 SDXL 변형과 경쟁하거나 우수한 1024px의 고품질 1단계/소수단계 생성을 이끌어낼 수 있는가?
  • RQ2적대적 증류가 MSE 기반 증류에 비해 모드 커버리지를 희생하지 않고 품질을 향상시키는가?
  • RQ3잠재 공간에서의 판별기 설계가 안정성과 LoRA 및 제어 플러그인과의 호환성에 어떤 영향을 미치는가?
  • RQ4고해상도에서 소수 단계 증류의 안정화를 위해 필요한 학습 전략과 일정 조정은 무엇인가?

주요 결과

방법단계해상도CFGLoRA
SDXL [ 44 ]25+1024pxNo-
LCM [ 36 , 37 ]4+1024pxYesYes
Turbo [ 58 ]1+512pxYesNo
Ours1+1024pxYesYes
  • 이전 오픈소스 증류 방법들과 비교하여 1024px 해상도에서 새로운 최첨단 1단계/소수단계 생성 성능을 달성한다.
  • 진행형 증류는 확률 흐름과 모드 커버리지를 보존하고; 적대적 손실은 소수 단계 생성에서 MSE로 인한 흐림 현상을 완화한다.
  • 잠재 공간에서 작동하는 사전 학습된 SDXL U-Net 인코더 기반의 판별기는 효율적이고 다중 타임스텝 판별을 가능하게 하며 안정성을 향상시킨다.
  • 본 방법은 경쟁력 있는 FID 및 CLIP 점수를 산출하고, 다른 증류 기준선들보다 특히 고해상도 디테일(FID-patch)이 더 우수하다.
  • LoRA로 학습된 증류는 다른 기본 모델과 호환되며 LoRA 또는 전체 UNet 모델로 배포될 수 있다; 본 방법은 ControlNet 조건부를 지원한다.
Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.
Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.