QUICK REVIEW

[논문 리뷰] SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Shanchuan Lin, Anran Wang|arXiv (Cornell University)|2024. 02. 21.

Spectroscopy Techniques in Biomedical and Chemical Research인용 수 6

한 줄 요약

SDXL-Lightning은 점진적 적대적 확산 증류를 도입하여 고품질의 1단계/소수단계 1024px 텍스트-이미지 모델을 만들어내고, LoRA 및 SDXL용 전체 UNet 가중치로 오픈소스화됩니다.

ABSTRACT

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.

연구 동기 및 목표

SDXL를 증류하여 1024px에서 1단계 및 소수 단계의 텍스트-이미지 생성을 향상시키다.
진행형-적대적 증류 프레임워크를 통해 이미지 품질과 모드 커버리지를 균형 있게 달성한다.
LoRA 및 제어 플러그인과의 호환성을 유지하기 위해 확률 흐름을 보존한다.
더 넓은 연구 활용을 위한 안정적인 학습 기술과 오픈 소스 모델을 제공한다.

제안 방법

교사의 확산 흐름을 따르도록 학생을 이끄는 진행형 증류와 적대적 손실을 결합한다.
잠재 공간에서 작동하는 사전 학습된 SDXL U-Net 인코더를 기반으로 한 판별기 백본을 사용한다.
흐름 보존을 위한 조건부 적대적 손실과 모드 커버리지를 완화하는 무조건부 손실로 학습한다.
두 단계 증류 일정 적용: 초기 128→32 스텝에서 MSE로 시작하고, 이후 32→8→4→2→1 스텝에 대해 적대적 증류로 전환한다.
학습과 추론을 정렬하기 위한 일정 수정과 다중 타임스텝 학습, 조건부/무조건부 판별기 등 안정화 기법을 도입한다.

Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.

실험 결과

연구 질문

RQ1진행형 적대적 확산 증류가 SDXL 변형과 경쟁하거나 우수한 1024px의 고품질 1단계/소수단계 생성을 이끌어낼 수 있는가?
RQ2적대적 증류가 MSE 기반 증류에 비해 모드 커버리지를 희생하지 않고 품질을 향상시키는가?
RQ3잠재 공간에서의 판별기 설계가 안정성과 LoRA 및 제어 플러그인과의 호환성에 어떤 영향을 미치는가?
RQ4고해상도에서 소수 단계 증류의 안정화를 위해 필요한 학습 전략과 일정 조정은 무엇인가?

주요 결과

방법	단계	해상도	CFG	LoRA
SDXL [ 44 ]	25+	1024px	No	-
LCM [ 36 , 37 ]	4+	1024px	Yes	Yes
Turbo [ 58 ]	1+	512px	Yes	No
Ours	1+	1024px	Yes	Yes

이전 오픈소스 증류 방법들과 비교하여 1024px 해상도에서 새로운 최첨단 1단계/소수단계 생성 성능을 달성한다.
진행형 증류는 확률 흐름과 모드 커버리지를 보존하고; 적대적 손실은 소수 단계 생성에서 MSE로 인한 흐림 현상을 완화한다.
잠재 공간에서 작동하는 사전 학습된 SDXL U-Net 인코더 기반의 판별기는 효율적이고 다중 타임스텝 판별을 가능하게 하며 안정성을 향상시킨다.
본 방법은 경쟁력 있는 FID 및 CLIP 점수를 산출하고, 다른 증류 기준선들보다 특히 고해상도 디테일(FID-patch)이 더 우수하다.
LoRA로 학습된 증류는 다른 기본 모델과 호환되며 LoRA 또는 전체 UNet 모델로 배포될 수 있다; 본 방법은 ControlNet 조건부를 지원한다.

Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.