Skip to main content
QUICK REVIEW

[論文レビュー] Soft Diffusion: Score Matching for General Corruptions

Giannis Daras, Mauricio Delbracio|arXiv (Cornell University)|Sep 12, 2022
Mathematical Biology Tumor Growth被引用数 29
ひとこと要約

本論文は Soft Score Matching を導入し、一般的な線形の汚染プロセスに対するスコア関数を学習する。CelebA-64 で最先端の FID を達成し、従来の拡散過程よりもサンプリングが速い。

ABSTRACT

We define a broader family of corruption processes that generalizes previously known diffusion models. To reverse these general diffusions, we propose a new objective called Soft Score Matching that provably learns the score function for any linear corruption process and yields state of the art results for CelebA. Soft Score Matching incorporates the degradation process in the network. Our new loss trains the model to predict a clean image, extit{that after corruption}, matches the diffused observation. We show that our objective learns the gradient of the likelihood under suitable regularity conditions for a family of corruption processes. We further develop a principled way to select the corruption levels for general diffusion processes and a novel sampling method that we call Momentum Sampler. We show experimentally that our framework works for general linear corruption processes, such as Gaussian blur and masking. We achieve state-of-the-art FID score $1.85$ on CelebA-64, outperforming all previous linear diffusion models. We also show significant computational benefits compared to vanilla denoising diffusion.

研究の動機と目的

  • 拡張された加法的ガウシアンノイズを超える、より広い一連の汚染プロセスに対応できるよう拡散モデルを動機づける。
  • 正則な線形汚染プロセスのスコアを証明的に学習し、分解演算子をネットワークに組み込むことができる学習目的を開発する。
  • 中間的な汚染レベルを選択するための原理的な方法と、効率的なサンプリングのための新規 Momentum Sampler を提案する。
  • CelebA-64 および CIFAR-10 で最先端の生成性能を、従来の拡散よりも高速な計算で示す。

提案手法

  • 一般的な汚染モデル x_t = C_t x_0 + s_t η_t を定義する。ここで C_t は決定論的な線形演算子であり、η_t はガウスノイズである。
  • 汚染 C_t を取り入れた、クリーン画像のぼやけたまたは汚染されたバージョンを予測するようネットワークを訓練する Soft Score Matching 損失を導出する。
  • ノイズ成分を予測するようネットワークを再パラメータ化する。s_theta(x_t|t) = (C_t h_theta(x_t|t) - x_t) / σ_t^2 および学習を安定させるために残差をさらに学習する。
  • 穏やかな正則性仮定の下で s_theta を対数尤度の勾配 q_t(x_t) に合わせる DSM のような目的を提供する(定理3.1)。
  • 異なる拡散レベルでの汚染を凸結合してサンプルを生成する Momentum Sampler を導入し、多様性とサンプリング効率を改善する。
  • Gaussian blur + noise を拡散機構として用いた CelebA と CIFAR-10 の実験を示し、CelebA-64 で FID 1.85 を達成。

実験結果

リサーチクエスチョン

  • RQ1広範な線形汚染プロセスの家族に対して、スコアマッチングを証明可能に学習できるのか?
  • RQ2一般的な線形拡散において、学習とサンプリングを最適化する中間の汚染レベルをどう選ぶべきか?
  • RQ3劣化演算子をネットワークに組み込むことは、非加法的な汚染の場合の学習とサンプル品質を改善するのか?
  • RQ4提案された Momentum Sampler は、標準的な拡散法と比べてサンプルの多様性と生成速度にどう影響するのか?

主な発見

  • Soft Score Matching は穏やかな条件下で、正則な線形汚染プロセスのスコアを証明可能に学習する。
  • 本手法は線形拡散モデルで CelebA-64 の最先端 FID 1.85 を達成。
  • 汚染演算子をネットワークに組み込むことは、汚染がぼかしのような場合の実用的な学習を改善する。
  • Momentum Sampler はサンプルの多様性を高め、従来の拡散と比較して計算コストを低減する。
  • CelebA および CIFAR-10 の実験は、Gaussian blur や masking などの一般的な線形汚染に対して有効性を示す。
  • このフレームワークは、従来の Gaussian denoising diffusion よりも高速なサンプリングを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。