[論文レビュー] Input Perturbation Reduces Exposure Bias in Diffusion Models
本論文は長いサンプリング連鎖におけるDDPMの露出バイアスを特定し、入力摂動(DDPM-IP)を単純で効果的な訓練正則化として提案し、このバイアスを低減させ、サンプル品質を向上させ、訓練と推論を高速化します。
Denoising Diffusion Probabilistic Models have shown an impressive generation quality, although their long sampling chain leads to high computational costs. In this paper, we observe that a long sampling chain also leads to an error accumulation phenomenon, which is similar to the exposure bias problem in autoregressive text generation. Specifically, we note that there is a discrepancy between training and testing, since the former is conditioned on the ground truth samples, while the latter is conditioned on the previously generated results. To alleviate this problem, we propose a very simple but effective training regularization, consisting in perturbing the ground truth samples to simulate the inference time prediction errors. We empirically show that, without affecting the recall and precision, the proposed input perturbation leads to a significant improvement in the sample quality while reducing both the training and the inference times. For instance, on CelebA 64$ imes$64, we achieve a new state-of-the-art FID score of 1.27, while saving 37.5% of the training time. The code is publicly available at https://github.com/forever208/DDPM-IP
研究の動機と目的
- 拡散モデルにおける長いサンプリング連鎖中の露出バイアスを特定・定量化する。
- 訓練と推論のずれを最小限に抑える、最小限で効果的な正則化を提案する。
- 複数データセットとサンプリング regime に対して、最先端のDDPMと比較してDDPM-IPを評価する。
- 入力摂動がリコールと適合性を犠牲にせずサンプル品質を改善し、訓練と推論を高速化することを示す。
提案手法
- 訓練時の予測誤差をモデル化するため、グラウンドトゥルース入力をガウスノイズで摂動して推論エラーを模擬する(DDPM-IP)。
- ターゲットεは変えず、入力が摂動される状態でVRMのような正則化を作り、μ(·, t)を滑らかにする。
- DDPM-IPをリプシッツ連続性正則化(勾配ペナルティ、重み減衰)および標準DDPM訓練と比較。
- 拡散ステップ全体で定数摂動スケールγ=0.1を使用して、追加のハイパーパラメータ調整を避ける。
- 複数データセット(CIFAR-10, ImageNet 32, LSUN tower, CelebA, FFHQ)でFIDとsFIDで性能を評価。
- DDPM-IPはデータセットを跨いで、より良いまたは同等のサンプル品質と高速な収束・推論を実現することを示す。
実験結果
リサーチクエスチョン
- RQ1訓練と推論の入力不一致による露出バイアスは、逆拡散長が長くなるとDDPMのサンプル品質を劣化させるか。
- RQ2訓練時の簡単な入力摂動は推論時のエラーを模倣し、デノイジングネットワークのロバスト性を向上させるか。
- RQ3DDPM-IPは露出バイアスの低減と生成品質の向上において、リプシッツ連続性正則化とどのように比較されるか。
- RQ4標準画像データセットにおける訓練の収束速度と推論速度に対するDDPM-IPの影響はどうなるか。
主な発見
| Model | CIFAR10 FID | CIFAR10 sFID | ImageNet 32 FID | ImageNet 32 sFID | LSUN tower 64 FID | LSUN tower 64 sFID | CelebA 64 FID | CelebA 64 sFID | FFHQ 128 FID | FFHQ 128 sFID |
|---|---|---|---|---|---|---|---|---|---|---|
| ADM (baseline) | 2.99 | 4.76 | 3.60 | 3.30 | 3.39 | 7.96 | 1.60 | 3.80 | 9.65 | 12.53 |
| ADM-IP | 2.76 | 4.05 | 2.87 | 2.39 | 2.68 | 6.04 | 1.31 | 3.38 | 2.98 | 5.59 |
- DDPMには露出バイアスが存在する。長い逆拡散チェーンは、訓練入力とグラウンドトゥルースに整合した入力を用いてテストした場合、生成入力を用いた場合にFIDが高くなる。
- 訓練時の入力摂動(DDPM-IP)は露出バイアスを低減し、データセット全体でFIDとsFIDを改善し、CIFAR-10ではCIFAR-10 32×32で最良の結果を示す。
- DDPM-IPは訓練中の収束を速めることが多く、推論軌道を短くしても高い性能を発揮できる(例:60–200ステップ対1000)。
- ADM-IPはCIFAR-10, ImageNet 32×32, LSUN tower 64×64, CelebA 64×64, FFHQ 128×128でベースラインADMを上回り、sFIDの改善とときにはサンプリングの大幅な高速化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。