[論文レビュー] Matryoshka Diffusion Models
MDM は、NestedUNet を用いてマルチ解像度入力を共同でデノイズするエンドツーエンドの高解像度拡散フレームワークであり、1024^2 解像度まで到達する段階的な訓練を行います。
Diffusion models are the de facto approach for generating high-quality images and videos, but learning high-dimensional models remains a formidable task due to computational and optimization challenges. Existing methods often resort to training cascaded models in pixel space or using a downsampled latent space of a separately trained auto-encoder. In this paper, we introduce Matryoshka Diffusion Models(MDM), an end-to-end framework for high-resolution image and video synthesis. We propose a diffusion process that denoises inputs at multiple resolutions jointly and uses a NestedUNet architecture where features and parameters for small-scale inputs are nested within those of large scales. In addition, MDM enables a progressive training schedule from lower to higher resolutions, which leads to significant improvements in optimization for high-resolution generation. We demonstrate the effectiveness of our approach on various benchmarks, including class-conditioned image generation, high-resolution text-to-image, and text-to-video applications. Remarkably, we can train a single pixel-space model at resolutions of up to 1024x1024 pixels, demonstrating strong zero-shot generalization using the CC12M dataset, which contains only 12 million images. Our code is released at https://github.com/apple/ml-mdm
研究の動機と目的
- 高解像度の画像/動画生成を、連鎖的または潜在拡散パイプラインを用いずに動機づける。
- 拡張空間におけるマルチ解像度拡散プロセスを導入する。
- 解像度間で計算を共有する NestedUNet アーキテクチャを提案する。
- より高解像度を段階的に取り込むための progressive トレーニングSchedule を開発する。
- クラス条件付き画像生成、テキストから画像、テキストから動画タスクでの有効性をデモンストレーションする。)
提案手法
- 標準拡散を複数解像度 z^r_t を下りサンプリング演算子 D^r(.) で結合した拡張空間に拡張する。
- 単一の denoising 関数内でパラメータと計算を共有するため NestedUNet を導入する。
- 解像度間の損失を重み付けするマルチ解像度 denoising 目的関数 (Eq. 3) を用いて訓練する (ω_t^r)。
- 低解像度から始めて徐々に高解像度を追加する progressive training を採用する(マルチフェーズ訓練)。
- 最終的な解像度が異なるサンプルを同時に学習する混在解像度訓練を可能にする。
- テスト時にはすべての解像度を並列に生成する並列推論を提供する。
実験結果
リサーチクエスチョン
- RQ1拡張空間におけるマルチ解像度拡散は、高解像度生成の収束速度と最終品質にどう影響するか?
- RQ2エンドツーエンドの高解像度拡散は、 cascaded および latent 拡散アプローチと同等以上の性能を得つつ、訓練/推論パイプラインを単純化できるか?
- RQ3Image と Video 生成の効率と品質に対する progressive training と nested level depth の影響はどうか?
- RQ4モデリングが modest なデータを用いた場合、マルチ解像度拡散モデルは text-to-image および text-to-video タスクへ良く一般化するか?
主な発見
| モデル | FID (ImageNet 256x256) | FID (MS-COCO 256x256) | Notes |
|---|---|---|---|
| ADM (Nichol & Dhariwal, 2021) | 10.94 | - | ImageNet 256x256 (FID) |
| CDM (Ho et al., 2022b) | 4.88 | - | ImageNet 256x256 (FID) |
| LDM-4 (Rombach et al., 2022) | 10.56 | - | ImageNet 256x256 (FID) |
| LDM-4* (Rombach et al., 2022) | 3.60 | - | ImageNet 256x256 (FID) |
| Ours (cfg=1) | 8.92 | - | MDM, ImageNet 256x256 (FID) |
| Ours (cfg=1.2)* | 6.62 | - | MDM, ImageNet 256x256 (CFG) |
| LDM-8 (Rombach et al., 2022) | - | 23.31 | MS-COCO 256x256 (FID) |
| LDM-8* (Rombach et al., 2022) | - | 12.63 | MS-COCO 256x256 (FID) |
| Dalle-2* (Ramesh et al., 2022) | - | 10.39 | MS-COCO 256x256 (FID) |
| IMAGEN* (Saharia et al., 2021) | - | 7.27 | MS-COCO 256x256 (FID) |
| Ours (cfg=1) | - | 18.35 | MDM, CC12M 256x256 (FID) |
| Ours (cfg=1.35)* | - | 13.43 | MDM, CC12M 256x256 (CFG) |
- MDM は candked 連鎖的または latent 拡散を用いずに、1024^2 までの高解像度でより速い収束と高品質を達成する。
- progressive training によるマルチ解像度損失は、訓練効率と最終結果を著しく改善する。
- 総パラメータ数と推論ステップが比較可能な設定でも、Cascaded DM はMDM より劣る。
- MDM は CC12M (12M 画像) を用いたテキストから画像生成で 1024^2 解像度で強力なゼロショット能力を示す。
- アブレーションにより、マルチ解像度損失と progressive training の双方が有益であり、ネストレベルを増やすと収束が改善されるがコストは最小限。
- MDM の結果は ImageNet および MS-COCO FID 指標でいくつかのベースラインと同等または上回り、WebVid-10M 上で高解像度のテキストから動画生成を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。