Skip to main content
QUICK REVIEW

[論文レビュー] Score-Based Generative Modeling with Critically-Damped Langevin Diffusion

Tim Dockhorn, Arash Vahdat|arXiv (Cornell University)|Dec 13, 2021
Generative Adversarial Networks and Image Synthesis被引用数 35
ひとこと要約

臨界減衰 Langevin 拡散(CLD)をスコアベース生成モデルに導入し、データに速度変数を付与して速度の条件付きスコアを学習することで、合成品質を向上させ、より高速で滑らかなサンプリングを実現する。

ABSTRACT

Score-based generative models (SGMs) have demonstrated remarkable synthesis quality. SGMs rely on a diffusion process that gradually perturbs the data towards a tractable distribution, while the generative model learns to denoise. The complexity of this denoising task is, apart from the data distribution itself, uniquely determined by the diffusion process. We argue that current SGMs employ overly simplistic diffusions, leading to unnecessarily complex denoising processes, which limit generative modeling performance. Based on connections to statistical mechanics, we propose a novel critically-damped Langevin diffusion (CLD) and show that CLD-based SGMs achieve superior performance. CLD can be interpreted as running a joint diffusion in an extended space, where the auxiliary variables can be considered "velocities" that are coupled to the data variables as in Hamiltonian dynamics. We derive a novel score matching objective for CLD and show that the model only needs to learn the score function of the conditional distribution of the velocity given data, an easier task than learning scores of the data directly. We also derive a new sampling scheme for efficient synthesis from CLD-based diffusion models. We find that CLD outperforms previous SGMs in synthesis quality for similar network architectures and sampling compute budgets. We show that our novel sampler for CLD significantly outperforms solvers such as Euler--Maruyama. Our framework provides new insights into score-based denoising diffusion models and can be readily used for high-resolution image synthesis. Project page and code: https://nv-tlabs.github.io/CLD-SGM.

研究の動機と目的

  • ノイズ除去の複雑さを低減するために拡散ダイナミクスを再検討して SGMs の改善を動機づける。
  • データに速度変数を付与して平衡化を加速する前方拡散過程を提案する。
  • データの条件付き速度のスコアのみを学習するスコアマッチング目的を導出し、学習を単純化する。
  • CLDベースのSGMsからの効率的なサンプリングのための特別なSDE積分器(SSCS)を開発する。
  • 同等のモデルサイズと計算予算でFIDを改善した CIFAR-10 における経験的利得を示す。

提案手法

  • x_t と v_t を用いたデータ-速度の結合拡散と、それらを結ぶハミルトン成分を定義する。
  • 収束を最適化するために臨界減衰 Langevin(Gamma^2 = 4M)に拡散を設定する。
  • nabla_{v_t} log p_t(v_t|x_t)(式 (6))をターゲットにするスコアマッチング目的を導出する。
  • 初期速度を周辺化し、扱いやすい摂動カーネルを活用することで効率的に学習するためにHybrid Score Matching(HSM)を採用する(式(8))。
  • スコアのターゲットを簡略化するために、正規分布様の速度分布を活用した混合スコアパラメータ化を用いる(式(9))。
  • Strang分割に基づく対称分割 CLDサンプラー(SSCS)を導入し、Euler–Maruyama よりもサンプリングを改善するように設計された特別な SDE積分器。

実験結果

リサーチクエスチョン

  • RQ1CLD による速度のデータ付与は、拡散ベースのノイズ除去と SGMs の合成品質を改善するか?
  • RQ2条件付き速度スコア p_t(v_t|x_t) に学習を集中させることが訓練を単純化し、モデルの滑らかさを向上させるか?
  • RQ3CLD ベースのサンプラー(SSCS)は、標準の EM/Euler 法と比較してサンプル品質と効率の点でどうか?
  • RQ4同様のアーキテクチャと計算予算を持つ従来の拡散モデルと比較した CIFAR-10 における経験的利得は?
  • RQ5ハイパーパラメータに対して CLD は頑健であり、高解像度データへスケール可能か?

主な発見

  • CLD ベースの SGMs は、多くの t において VPSDE ベースのモデルより滑らかなニューラルスコアネットワークを生み出し、学習目標がより容易であることを示す。
  • CIFAR-10 では、同様のアーキテクチャと予算で最先端に近い合成品質を達成し、FID は 2.23(SDE)と 2.25(確率流)まで低下。
  • CLD サンプラー(SSCS)は、サンプリング効率と品質で Euler–Maruyama を大幅に上回る。
  • 本手法は約 3.31 の NLL 境界を達成し、最近の拡散ベースの研究と競合するが、主に尤度を最適化しているわけではない。
  • 補助的な速度付与とハミルトン成分が混合と拡散の平衡化を加速し、高品質でスケーラブルな画像合成を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。