QUICK REVIEW

[論文レビュー] SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Shanchuan Lin, Anran Wang|arXiv (Cornell University)|Feb 21, 2024

Spectroscopy Techniques in Biomedical and Chemical Research被引用数 6

ひとこと要約

SDXL-Lightningは進行的な敵対的拡散蒸留を導入し、1024pxの高品質なone-step/few-stepテキスト-to-画像モデルを生み出します。LoRAおよびSDXL用の全 UNetウェイトとしてオープンソース化されています。

ABSTRACT

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.

研究の動機と目的

SDXLを蒸留して1024pxでのone-stepおよびfew-stepテキスト-to-画像生成を進化させる。
progressive-adversarial distillationフレームワークを介して画像品質とモードカバレージのバランスを取る。
LoRAとコントロールプラグインとの互換性を維持するために確率流を preserving。
より広い研究利用のための安定した訓練技術とオープンソースモデルを提供する。

提案手法

漸進的蒸留を敵対的損失と結合して、教師の拡散フローに沿って学生を導く。
潜在空間で動作する事前学習済みSDXL U-Netエンコーダーを基盤とする識別器バックボーンを使用する。
フローを preserving するための条件付き敵対損失と、モードカバレージを緩和する無条件損失で訓練する。
初期の128→32ステップにはMSEを用いた2段階蒸留スケジュールを適用し、その後32→8→4→2→1ステップで敵対的蒸留に切り替える。
訓練と推論を整合させるスケジュール修正と、マルチタイムステップ訓練、条件/無条件識別器、安定化技術を組み込む。

Figure 1 : Illustration of multiple possible flows learned by models with different capacities. Distilled student models for few-step generations do not have the same capacity to match with the teacher models, leading to blurry results with MSE loss.

実験結果

リサーチクエスチョン

RQ1漸進的敵対的拡散蒸留は、SDXLバリアントと競合するか優位性のある1024pxのone-step/few-step生成を実現できるか。
RQ2敵対的蒸留はMSEベースの蒸留と比較してモードカバレージを犠牲にせず品質を向上させるか。
RQ3潜在空間における識別器の設計は安定性とLoRAおよびコントロールプラグインとの互換性にどう影響するか。
RQ4高解像度でのfew-step蒸留を安定させるために必要な訓練戦略とスケジュール調整は何か。

主な発見

Method	Steps	Resolution	CFG	LoRA
SDXL [ 44 ]	25+	1024px	いいえ	-
LCM [ 36 , 37 ]	4+	1024px	はい	はい
Turbo [ 58 ]	1+	512px	はい	いいえ
私たちの	1+	1024px	はい	はい

1024px解像度での1ステップ/少数ステップ生成において、従来のオープンソース蒸留手法と比較して新たな最先端を達成。
漸進的蒸留は確率流とモードカバレージを preserves、MSEで見られるブラーを少数ステップ生成で敵対的損失が緩和。
潜在空間で動作する事前学習済みSDXL U-Netエンコーダーに基づく識別器は、効率的な多タイムステップ識別を可能にし安定性を向上。
この手法は競争力のあるFIDおよびCLIPスコアを提示し、他の蒸留ベースラインよりも高解像度ディテール（FID-patch）が notably優れている。
LoRAで訓練された蒸留は他のベースモデルと互換性があり、LoRAまたは full UNetモデルとして展開可能。手法はControlNet conditioningをサポート。

Figure 2 : “Janus” artifacts appear when the student network does not have the capacity to match the teacher’s sudden changes. This problem can be mitigated by relaxing the mode coverage requirement.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。