Skip to main content
QUICK REVIEW

[論文レビュー] Spectrally-Guided Diffusion Noise Schedules

Carlos Esteves, Ameesh Makadia|arXiv (Cornell University)|Mar 19, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

論文は per-instance に基づくスペクトル指向のノイズスケジュールを設計し、各画像のスペクトルに条件付けることで特に少数のdenoisingステップで画像品質を向上させる。

ABSTRACT

Denoising diffusion models are widely used for high-quality image and video generation. Their performance depends on noise schedules, which define the distribution of noise levels applied during training and the sequence of noise levels traversed during sampling. Noise schedules are typically handcrafted and require manual tuning across different resolutions. In this work, we propose a principled way to design per-instance noise schedules for pixel diffusion, based on the image's spectral properties. By deriving theoretical bounds on the efficacy of minimum and maximum noise levels, we design ``tight'' noise schedules that eliminate redundant steps. During inference, we propose to conditionally sample such noise schedules. Experiments show that our noise schedules improve generative quality of single-stage pixel diffusion models, particularly in the low-step regime.

研究の動機と目的

  • データセットレベルのヒューリスティクスから per-instance のスペクトル駆動ノイズスケジュールへと pixel diffusion の改善を動機づける。
  • 各画像のスペクトル特性に合わせて前方ノイズとサンプリングスケジュールを principled に調整する方法を導入する。
  • 最小/最大ノイズレベルの理論的境界と、サンプリング前のスペクトルを予測する条件付きメカニズムを提供する。
  • 単段 Pixel diffusion モデルにおける低ステップ領域での生成品質と効率の改善を実証する。
  • サンプリング中のスペクトル操作が生成画像のテクスチャと細部をどのように操作できるかを探る。

提案手法

  • 画像パワースペクトル(RAPSD)に従う per-instance ノイズスケジュールを定義する。
  • “タイト”なスケジュールを作るための最小/最大ノイズレベルの境界を導出する。
  • conditioning(例:クラス)を RAPSD パラメータ(α, β)へ写像する条件付き RAPSD サンプラー S(y) を提案する。
  • スケジュールタイプを三種類(周波数重視、パワー重視、混合)計算し、それらをサンプリングの logSNR λ(t) に写像する。
  • 学習時には各画像へパワー則 RAPSD を適合させ、推論時にもサンプリングを実行することでスケジュールを訓練する。
  • per-image スケジュールに対応するよう conditioning および FiLM ベースの conditioning を調整する。
Figure 1 : Our “tight” schedules adapt to each instance’s spectrum, ensuring effective noise levels at all steps. Top: An image with low energy on low frequencies. The standard cosine noise schedule destroys the signal at $t=0.5$ , which means that at least half of the training steps would apply exc
Figure 1 : Our “tight” schedules adapt to each instance’s spectrum, ensuring effective noise levels at all steps. Top: An image with low energy on low frequencies. The standard cosine noise schedule destroys the signal at $t=0.5$ , which means that at least half of the training steps would apply exc

実験結果

リサーチクエスチョン

  • RQ1 per-instance のスペクトル特性を利用してピクセルベースの拡散モデルのノイズスケジュールをより効果的に設計できるか?
  • RQ2スペクトル指向のスケジュールは denoising ステップ数を削減しつつ画像品質を維持または向上させるか?
  • RQ3周波数重視/パワー重視/混合スケジュールは画像忠実度(FID)、多様性(IS)、精度/再現性の観点でどう比較されるか?
  • RQ4RAPSD サンプラーは conditioning 信号からスペクトルベースのスケジュールパラメータを予測して ground-truth スペクトルなしでエンドツーエンドのサンプリングを可能にできるか?
  • RQ5スペクトル操作が生成画像のテクスチャや細部といった特性に与える影響はどのようか?

主な発見

ModelParamsNFEFID ↓sFID ↓IS ↑Precision ↑Recall ↑
SiD2, small397M5122.19 (2.19)4.30295.30.720.63
Ours, small399M2561.794.39306.10.730.64
SiD2, Flop Heavy397M5121.53 (1.48)3.98306.20.740.63
Ours, Flop Heavy399M3201.453.91310.00.740.63
SiD2, small (ImageNet 128x128)397M5121.623.76220.00.730.64
Ours, small (ImageNet 128x128)399M1601.433.65223.90.740.64
SiD2, small (ImageNet 256x256)397M5121.68 (1.72)4.04288.20.720.65
Ours, small (ImageNet 256x256)399M2561.423.82297.00.730.65
SiD2, Flop Heavy (ImageNet 256x256)397M5121.37 (1.38)3.83286.30.730.65
Ours, Flop Heavy (ImageNet 256x256)399M2561.323.71294.20.740.64
  • per-instance のスペクトル指向スケジュールは、低ステップ領域で特に ImageNet 解像度の複数にわたり強力なピクセル拡散ベースライン(SiD2)を上回る。
  • 画像スペクトルに従う“タイト”スケジュールは冗長なステップを減らし、 denoising ステップが少ない場合のFID/IS のトレードオフを改善する。
  • 周波数重視、パワー重視、混合スケジュールは補完的な利点を持ち、混合スケジュールが総じて最良の性能を示すことが多い。
  • RAPSD サンプラーは推論時に per-image スペクトルを近似でき、クラスやプロンプトに条件付けしたエンドツーエンドのサンプリングを可能にする。
  • サンプルされた RAPSD を操作(α 指数の変更など)すると画像のテクスチャ/細部が変化し、出力におけるスペクトル効果を制御可能であることを示す。
  • アブレーション研究は、提案された per-instance conditioning と二パラメータ RAPSD サンプリングが性能向上に重要であることを示す。
Figure 2 : Our noise schedules vary per instance based on its spectral properties. Left: Median power per frequency for ImageNet at multiple resolutions (increasing from light to dark). The power spectrum of natural images follows a power law whose trends explain current noise schedule tuning heuris
Figure 2 : Our noise schedules vary per instance based on its spectral properties. Left: Median power per frequency for ImageNet at multiple resolutions (increasing from light to dark). The power spectrum of natural images follows a power law whose trends explain current noise schedule tuning heuris

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。