[論文レビュー] Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed
本論文は、多段階で決定論的な DDIM サンプリングプロセスを、単一ステップの Denoising Student に圧縮する知識蒸留アプローチを提案し、CIFAR-10、CelebA、LSUN で adversarial training なしに GAN に近いサンプリング速度と高品質サンプルを実現する。
Iterative generative models, such as noise conditional score networks and denoising diffusion probabilistic models, produce high quality samples by gradually denoising an initial noise vector. However, their denoising process has many steps, making them 2-3 orders of magnitude slower than other generative models such as GANs and VAEs. In this paper, we establish a novel connection between knowledge distillation and image generation with a technique that distills a multi-step denoising process into a single step, resulting in a sampling speed similar to other single-step generative models. Our Denoising Student generates high quality samples comparable to GANs on the CIFAR-10 and CelebA datasets, without adversarial training. We demonstrate that our method scales to higher resolutions through experiments on 256 x 256 LSUN. Code and checkpoints are available at https://github.com/tcl9876/Denoising_Student
研究の動機と目的
- 反復的生成モデル(例: DDPMs、NCSNs)におけるサンプリングの高速化を目的として、デノイジングステップの数を削減する。
- 教師の DDIM 出力に合わせる学習を行う高速な student を提案する知識蒸留フレームワークを提案する。
- アーキテクチャや学習ダイナミクスを変えずに蒸留を可能とする、単純で非 adversarial な目的を提供する。
- 高解像度(例: 256x256 LSUN)へのスケーラビリティを示しつつ、有意義な潜在表現を保持する。
提案手法
- 教師モデルを決定論的でマルチステップの生成プロセスを持つDDIMとしてモデル化する。
- 学習可能な平均 F_student(xT) と単位分散を持つ、p(x0|xT) のガウス近似を出力する student を定義する。
- KL(p_teacher(x0|xT) || p_student(x0|xT)) を最小化することで student を学習させ、F_student(xT) と教師の出力 F_teacher(xT) との回帰損失に単純化される。
- 知識移転を促進するため、教師のノイズ予測子と同じアーキテクチャ/重みを用いて student を初期化する。
- 訓練データに対して出力分布がゼロでないことを保証するため、教師の出力にガウシアンノイズを加える。
- 教師と student の両方を timestep T(最も高いノイズレベル)で条件付けする。
- DDIM の決定論的性質を活用し、xT から x0 へのサンプリングを student の単一評価に畳み込めるようにする。
実験結果
リサーチクエスチョン
- RQ1知識蒸留が、多段 DDIM のデノイズ過程を adversarial training なしに単一ステップのモデルへ移植できるか。
- RQ2単一ステップのデノイジング・スチューデントは、標準ベンチマーク(CIFAR-10、CelebA)および高解像度データセット(LSUN 256x256)で、サンプル品質(FID/IS)と速度の点でどのように機能するか。
- RQ3蒸留モデルは潜在空間の構造を保持し、意味のある補間を可能にするか。
主な発見
| モデル | FID ↓ | IS ↑ | ステップ数 ↓ |
|---|---|---|---|
| Denoising Student (Ours) | 9.36 | 8.36 | 1 |
| NVAE [38] | 51.67 | 5.51 | 1 |
| MoLM [25] | 18.9 | 7.90 | 1 |
| SNGAN [23] | 21.7 | 8.22 | 1 |
| BigGAN (cond.) [1] | 14.73 | 9.22 | 1 |
| PPOGAN [41] | 10.87 | 8.69 | 1 |
| StyleGAN2+ADA [16] | 2.92 | 9.83 | 1 |
| StyleGAN2+ADA (cond.) [16] | 2.42 | 10.14 | 1 |
| DDIM (100 step, Teacher) | 4.16 | 8.96* | 100 |
| EBM [5] | 38.2 | 6.78 | 60 |
| VAEBM [42] | 12.19 | 8.43 | 16 |
| EBM+recovery likelihood [8] | 9.60 | 8.58 | 180 |
| NCSNv2 [32] | 10.87 | 8.40 | 1160 |
| DDPM [13] | 3.17 | 9.46 | 1000 |
| NCSN++ (8 blocks/res) [33] | 2.20 | 9.89 | 2000 |
- Denoising Student は CIFAR-10 で 1 ステップのみで Competitive な FID および IS を達成(FID 9.36、IS 8.36)。
- CelebA では競争力のある FID 10.68 を達成(IS は本文に記載なし)。
- 高解像度 LSUN(256x256)では、構造と色の一貫性を示す一方、ピクセル単位の再現目的の影響でテクスチャのブラーが残る。
- サンプリング速度は大幅に向上:教師より約100x、DDPMより約1000x、CIFAR-10 で 50k イメージ生成に 51.5 秒。
- この手法は 256x256 LSUN 画像へスケールし、意味のある補間を可能とする潜在表現を学習することを示す球状補間結果。
- 本手法は adversarial training に依存せず、潜在空間操作を implicit-models に類似した方法で維持できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。