QUICK REVIEW

[論文レビュー] Common Diffusion Noise Schedules and Sample Steps are Flawed

Shanchuan Lin, Bingchen Liu|arXiv (Cornell University)|May 15, 2023

Advanced Neuroimaging Techniques and Applications被引用数 10

ひとこと要約

この論文は、一般的な拡散ノイズスケジュールとサンプラ開始点の欠陥を特定し、訓練と推論の不一致と明度バイアスを示し、以下の修正を提案します：端末SNRをゼロにするスケジュール、v-予測、最後の timestep からの開始、そして分類器不要ガイダンスのリスケーリング。

ABSTRACT

We discover that common diffusion noise schedules do not enforce the last timestep to have zero signal-to-noise ratio (SNR), and some implementations of diffusion samplers do not start from the last timestep. Such designs are flawed and do not reflect the fact that the model is given pure Gaussian noise at inference, creating a discrepancy between training and inference. We show that the flawed design causes real problems in existing implementations. In Stable Diffusion, it severely limits the model to only generate images with medium brightness and prevents it from generating very bright and dark samples. We propose a few simple fixes: (1) rescale the noise schedule to enforce zero terminal SNR; (2) train the model with v prediction; (3) change the sampler to always start from the last timestep; (4) rescale classifier-free guidance to prevent over-exposure. These simple changes ensure the diffusion process is congruent between training and inference and allow the model to generate samples more faithful to the original data distribution.

研究の動機と目的

一般的な拡散ノイズスケジュールがゼロ端末SNRを強制できていない原因と、それが訓練と推論の不一致を生む理由を特定する。
最後の timestep から開始しないサンプラ実装が明度バイアスを悪化させる程度を示す。
訓練と推論を整合させ、サンプル品質を向上させる実用的な修正を提案する。
提案された修正を、Stable Diffusion のバリアントと標準データセットでの訓練と評価を通じて検証する。

提案手法

既存のノイズスケジュールを sqrt(alpha_bar) 空間でリスケールすることによりゼロ端末SNRを強制する（Algorithm 1）。
端末SNRがゼロのとき意味のあるガイダンスを提供するため、v-prediction と v-lossへ切替える（Equations 11–12）。
訓練と推論を整合させるため、サンプラは最後の timestep から開始することを要求する（Table 2 reference and Section 3.3）。
過曝を防ぐための分類器不要ガイダンスのリスケーリングを提案する（Equations 13–16, Algorithm 2）。
提案スケジュールとサンプリング戦略を用いてモデルを訓練し、ベースラインStable Diffusionと定性的・定量的に比較する（Section 4）。
端末SNRがゼロの場合、epsilonベースの定式化を避け、v-predictionと epsilon の扱いが適切かどうかを考察する（Section 6）。

実験結果

リサーチクエスチョン

RQ1一般的な拡散ノイズスケジュールは最終 timestep でゼロでない SNR を許容してしまい、訓練と推論の不一致を生むのか？
RQ2推論を最後の timestep から開始することは訓練と推論の整合性を高め、達成可能な明度範囲を広げるのか？
RQ3簡易なスケジュールリスケーリング、v-prediction、および CFGリスケーリングは Stable Diffusion で観察される明度と露出の問題を解決できるのか？
RQ4提案された変更は量的分布適合性（FID/IS）と質的サンプル多様性にどのような影響を与えるのか？
RQ5端末 SNR がゼロの場合、サンプラ実装における実践的考慮事項は何か？

主な発見

モデル	FID ↓	IS ↑
Stable Diffusion \| Official	23.76	32.84
SD with our data, no fixes	22.96	34.11
SD with fixes (Ours)	21.66	36.16

端末ゼロSNRスケジュールは最終段階での低周波信号の漏出を排除し、訓練と推論を整合させる。
端末SNR がゼロのときでも v-prediction は意味のある損失ガイダンスを維持し、epsilon予測と同等の視覚品質を保つ。
サンプルで最後の timestep から開始することは、ゼロ端末SNR スケジュール下での訓練と推論の一貫性を保つために重要。
分類器不要ガイダンスのリスケーリングは、端末SNR がゼロに近づくと過曝を緩和する（phi が [0.5,0.75] の範囲で示される）。
修正を施したファインチューニングモデルは COCO 2014 バリデーションでの FID/IS を改善：21.66（FID）と 36.16（IS）対して、公式 SD v2.1-base は 23.76 と 32.84。
サンプルステップの尾遅い選択は S が小さい場合 Linspace より効率的で、S が大きくなると差は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。