QUICK REVIEW

[論文レビュー] Improved Techniques for Training Score-Based Generative Models

Yang Song, Stefano Ermon|arXiv (Cornell University)|Jun 16, 2020

Generative Adversarial Networks and Image Synthesis参考文献 32被引用数 142

ひとこと要約

この論文はスコアベースの生成モデルを高解像度画像へスケールさせ、ノイズスケール、条件付け、EMA などの技術を導入して、64×64〜256×256 の画像でGANに匹敵する高忠実性サンプルを実現する。

ABSTRACT

Score-based generative models can produce high quality image samples comparable to GANs, without requiring adversarial optimization. However, existing training procedures are limited to images of low resolution (typically below 32x32), and can be unstable under some settings. We provide a new theoretical analysis of learning and sampling from score models in high dimensional spaces, explaining existing failure modes and motivating new solutions that generalize across datasets. To enhance stability, we also propose to maintain an exponential moving average of model weights. With these improvements, we can effortlessly scale score-based generative models to images with unprecedented resolutions ranging from 64x64 to 256x256. Our score-based models can generate high-fidelity samples that rival best-in-class GANs on various image datasets, including CelebA, FFHQ, and multiple LSUN categories.

研究の動機と目的

高解像度画像に対する従来のスコアベースモデルの限界を説明する。
ノイズスケールとサンプリングパラメータを選択するための理論的根拠を持つ手法を開発する。
安定性とサンプル品質を向上させるアーキテクチャとトレーニングの工夫を提案する。
64×64〜256×256 の画像へ多様なデータセットでの拡張性を実証する。

提案手法

データ分布からのガウスノイズスケールを選ぶための分析的ガイダンス。
多くのノイズスケールを横断する単一ネットワークによるアモルタイズドスコア推定（ノイズ条件付け）。
ノイズスケール全体でサンプリング性能を最適化するための Langevin ダイナミクスの理論的分析。
サンプリング中のモデルパラメータの指数移動平均（EMA）による安定化。
最終サンプル品質を向上させるデノイジングステップ（Tweedeの公式に触発）
上記を End-to-End のトレーニングとサンプリングレシピ（NCSNv2）に組み込む。

実験結果

リサーチクエスチョン

RQ1スコアベースのモデルを32×32から高解像度画像（64×64〜256×256）へどのようにスケールできるか？
RQ2どのノイズスケール構成と条件付け手法が信頼性の高い学習と高速・高品質なサンプリングを生み出すか？
RQ3パラメータの指数移動平均がトレーニングを安定させサンプル忠実性を向上させるか？
RQ4単一のアモルタイズドネットワークが多くのノイズスケールを効果的に扱えるか？
RQ5これらの手法をデータセット全体で適用した場合の標準指標（FID/Inception）の定量的利得はどれくらいか？

主な発見

モデル	Inception ↑	FID ↓
Unconditional PixelCNN [17]	4.60	65.93
IGEBM [18]	6.02	40.58
WGAN-GP [19]	7.86±.07	36.4
SNGAN [20]	8.22±.05	21.7
NCSN [1]	8.87±.12	25.32
NCSN (w/ denoising)	N/A	29.8
NCSNv2 (w/o denoising)	8.73±.13	31.75
NCSNv2 (w/ denoising)	8.40±.07	10.87
CelebA 64×64: NCSN (w/o denoising)	−	26.89
CelebA 64×64: NCSN (w/ denoising)	−	25.30
CelebA 64×64: NCSNv2 (w/o denoising)	−	28.86
CelebA 64×64: NCSNv2 (w/ denoising)	−	10.23

NCSNv2 は 64×64 CelebA および 128–256×256 LSUN/FFHQ データセットで高忠実性サンプルを実現し、従来のスコアベースモデルを上回る。
最適な初期ノイズスケールは訓練データの最大の組み合わせ距離と同等程度に大きいと多様性を促進できる。
ノイズスケールの幾何学的増幅は特定の比率で訓練を安定化し、高密度領域を効果的にカバーする。
ノイズ情報を組み込むために無条件スコアネットを 1/σ で再スケーリングすることは多くのスケールで訓練を改善する。
データ駆動の分析によってサンプリングステップとステップサイズを選ぶと調整が減り、混合が改善される。
サンプリング中のモデルパラメータの指数移動平均はFIDを著しく安定化し、アーティファクトを減少させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。