[論文レビュー] Maximum Likelihood Training of Score-Based Diffusion Models
この論文は、スコアベース拡散モデルの負の対数尤度を上界する尤度重み付けした目的を派生させ、近似的最大尤度学習を可能にし、データセットとSDE全体でモデルの尤度を改善し、CIFAR-10とImageNet32x32でデータ拡張なしでも競争力のあるビット/ディメンションを達成する。
Score-based diffusion models synthesize samples by reversing a stochastic process that diffuses data to noise, and are trained by minimizing a weighted combination of score matching losses. The log-likelihood of score-based diffusion models can be tractably computed through a connection to continuous normalizing flows, but log-likelihood is not directly optimized by the weighted combination of score matching losses. We show that for a specific weighting scheme, the objective upper bounds the negative log-likelihood, thus enabling approximate maximum likelihood training of score-based diffusion models. We empirically observe that maximum likelihood training consistently improves the likelihood of score-based diffusion models across multiple datasets, stochastic processes, and model architectures. Our best models achieve negative log-likelihoods of 2.83 and 3.76 bits/dim on CIFAR-10 and ImageNet 32x32 without any data augmentation, on a par with state-of-the-art autoregressive models on these tasks.
研究の動機と目的
- スコアベース拡散モデル(SBDMs)の重み付きスコア一致損失を負の対数尤度の上界に結びつけることによって、より高い尤度訓練を動機づけ、可能にする。
- 尤度重み付け(lambda(t) = g(t)^2)を導入し、境界を緊密化してモデルの尤度を改善する。
- SDE/ODE の形式と尤度を結ぶ理論的保証を提供し、実用的な訓練のための分散削減および変分手法を提案する。
- データセット、SDEファミリ(VE/VP/subVP)およびモデルアーキテクチャ全体で対数尤度の改善を実証し、CIFAR-10およびImageNet-32x32で競争力のある結果を示す。
提案手法
- 前向きSDEと逆時間SDEを用いてスコアベース拡散モデルを定式化し、学習対象となる時間依存スコアをニューラルネットワークで定義する。
- 尤度重み付け lambda(t) = g(t)^2 で、重み付きスコア整合目的関数がモデル p_theta^SDE へのKL発散を上界し、負の対数尤度の最適化にリンクすることを示す。
- スコアが真の時間依存スコアと一致する条件下で、p_theta^SDE と p_theta^ODE(CNF)の等価性を証明する。
- 個々のデータ点に対する実用的な下限を L^SM_theta(x) および L^DSM_theta(x) によって提供し、効率的な推定と訓練を可能にする。
- 小さな epsilon > 0 を用いて数値安定性に対処し、ヤンセの不等式によるバイアス補正を論じる。
- 尤度重み付けによる高分散を緩和するための重要度サンプリングによる分散削減を導入し、変分デクォンタization と組み合わせて尤度を改善する。
実験結果
リサーチクエスチョン
- RQ1尤度重み付けはスコアベース拡散モデルの負の対数尤度に対して原理的な上界を提供できるか?
- RQ2尤度重み付けスコア整合目的関数を最適化することで、データセットとSDEタイプ全体で p_theta^SDE および p_theta^ODE の実際の対数尤度が改善されるか?
- RQ3尤度境界が厳密になる、または真のデータスコア動力学と等価になる条件は?
- RQ4訓練で尤度重み付けを用いる際の分散をどのように制御するか、重要度サンプリングと変分デクォンタization はさらに尤度を改善できるか?
主な発見
- 尤度重み付け(lambda(t) = g(t)^2)はデータから p_theta^SDE への KL 発散を上界し、近似的な最大尤度訓練を可能にする。
- 尤度重み付けでの訓練は、複数のデータセット、SDEタイプ(VE/VP/subVP)、およびモデルアーキテクチャ全体で p_theta^SDE の尤度を一貫して改善する。
- 実験では、データ拡張なしで CIFAR-10 が 2.83 bits/dim、ImageNet-32x32 が 3.76 bits/dim の競争力のある対数尤度を達成し、最先端の自己回帰モデルと互換性がある。
- 理論的結果は、SDEベースのSBDMsを確率流動ODEを介してCNFに結びつけ、正確なスコア整合の下でCNF尤度と等価であることを示す。
- 尤度重み付けに内在する分散は、重要度サンプリングによって効果的に低減され、訓練の安定性と性能が向上する。
- この手法は、標準的な Fréchet Inception Distance 指標から大きく損なうことなく、より高品質な尤度推定を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。