Skip to main content
QUICK REVIEW

[論文レビュー] Score-Based Generative Modeling through Stochastic Differential Equations

Yang Song, Jascha Sohl‐Dickstein|arXiv (Cornell University)|Nov 26, 2020
Generative Adversarial Networks and Image Synthesis参考文献 48被引用数 1,263
ひとこと要約

前方および後向きの確率微分方程式(SDE)を用いてデータをノイズへ変換し、再び元に戻す統一的なスコアベース生成モデリングフレームワークを導入し、柔軟なサンプリング、ニューラルODEによる厳密な尤度、連続学習と新規サンプラーによるCIFAR-10生成の最先端を実現。

ABSTRACT

Creating noise from data is easy; creating data from noise is generative modeling. We present a stochastic differential equation (SDE) that smoothly transforms a complex data distribution to a known prior distribution by slowly injecting noise, and a corresponding reverse-time SDE that transforms the prior distribution back into the data distribution by slowly removing the noise. Crucially, the reverse-time SDE depends only on the time-dependent gradient field (\aka, score) of the perturbed data distribution. By leveraging advances in score-based generative modeling, we can accurately estimate these scores with neural networks, and use numerical SDE solvers to generate samples. We show that this framework encapsulates previous approaches in score-based generative modeling and diffusion probabilistic modeling, allowing for new sampling procedures and new modeling capabilities. In particular, we introduce a predictor-corrector framework to correct errors in the evolution of the discretized reverse-time SDE. We also derive an equivalent neural ODE that samples from the same distribution as the SDE, but additionally enables exact likelihood computation, and improved sampling efficiency. In addition, we provide a new way to solve inverse problems with score-based models, as demonstrated with experiments on class-conditional generation, image inpainting, and colorization. Combined with multiple architectural improvements, we achieve record-breaking performance for unconditional image generation on CIFAR-10 with an Inception score of 9.89 and FID of 2.20, a competitive likelihood of 2.99 bits/dim, and demonstrate high fidelity generation of 1024 x 1024 images for the first time from a score-based generative model.

研究の動機と目的

  • データをノイズで連続的に摂動し、スコア推定を用いてその過程を反転させることで、統一的な拡散に触発されたフレームワークをモデル化する。
  • ニューラルネットワークを用いて時刻依存のスコアを推定し、SDEを用いて高忠実なサンプルを生成し厳密な尤度を計算する方法を開発する。
  • サンプリングの改善(Predictor-Corrector、逆拡散サンプル系)と連続トレーニング目的を導入してサンプル品質と尤度の性能を向上させる。
  • 単一の無条件スコアモデル内で、クラス条件付き生成、インペンテーション、カラー化などのタスクのための制御可能な生成を可能にする。
  • CIFAR-10および高解像度画像でのスケーラビリティと結果を示し、拡散・スコアベースのベースラインと比較する。

提案手法

  • データを連続的な拡散過程(Itô SDE)でモデル化し、データ分布から扱いやすい事前分布へとノイズを徐々に付加する。
  • 逆時刻SDEを導出し、時刻依存のスコア ∇x log pt(x) を用いてノイズをデータへと変換する。
  • 時刻依存のスコアモデル sθ(x,t) を連続的スコアマッチングで訓練し、∇x log pt(x) を近似する。
  • 一般目的の数値解法で逆SDEを解き、数値ステップとスコアベースのMCMC補正を組み合わせたPredictor-Corrector (PC) サンプラーを導入する。
  • 確率流れODEを導出・使用し、SDEと同じマージナルを与え、ニューラルODE技術を介して厳密な尤度計算を可能にする。
  • VE、VP、およびサブ-VP SDEの変種を提示・分析し、閉形式の摂動カーネルとサンプリング更新を含む。
  • 前方モデル勾配を介して補助情報(例:クラスラベル)で条件付けすることで制御可能な生成を示す(インペンテーションやカラー化を可能にする)。

実験結果

リサーチクエスチョン

  • RQ1確率微分方程式のフレームワークの下でスコアベース生成モデリングをどのように統一できるか?
  • RQ2時刻依存のスコアから逆SDEを効果的に推定して高忠実なサンプルを生成できるか?
  • RQ3サンプラー(一般SDEソルバ、Predictor-Corrector、確率流れODE)はどの組み合わせがサンプル品質、速度、尤度計算の best trade-off をもたらすか?
  • RQ4連続的トレーニング目的とアーキテクチャの改善は最先端の画像生成指標と厳密な尤度を達成できるか?
  • RQ5無条件スコアベースモデルはクラス条件付き生成、インペンテーション、カラー化のような制御可能な生成タスクをどの程度サポートできるか?

主な発見

  • 統一的なSDEベースのフレームワークはデータをノイズ事前分布へ写し取り、推定スコアを用いて拡散を逆転させてデータサンプルを生成できる。
  • 連続スコアマッチングで訓練された時刻依存スコアモデルは、全ての t に対して ∇x log pt(x) を近似でき、逆SDEサンプリングと確率流れODEによる厳密な尤度を可能にする。
  • Predictor-Corrector サンプラーと逆拡散サンプラーは VE および VP / sub-VP SDE における祖先サンプリングより一貫してサンプル品質を向上させる。
  • 確率流れODE は高速・適応的サンプリングと厳密な尤度計算を可能にし、CIFAR-10 での対数尤度(bits/dim)の改善と競合的なFID/ISを示す。
  • アーキテクチャと訓練の改善(NCSN++, DDPM++, continuous objective)により CIFAR-10 での画像生成指標が記録的となり(Inception Score 9.89、FID 2.20)、Scoreベースモデルで 1024×1024 CelebA-HQ の生成を可能にする。
  • 新しい尤度記録法(DDPM++ cont. with sub-VP)が一様に量子化された CIFAR-10 で 2.99 bits/dim を達成、これまでで最良の報告値。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。