[論文レビュー] Semantic Image Synthesis via Diffusion Models
要約: 本論文は Semantic Diffusion Model (SDM) を提案する。DDPM ベースのフレームワークで、意味的レイアウトとノイズ画像を別々に処理し、SPADE のような条件付けを用いて、分類器不要ガイダンスを実現。Semantic image synthesis において高い忠実度と多様性を達成する。
Denoising Diffusion Probabilistic Models (DDPMs) have achieved remarkable success in various image generation tasks compared with Generative Adversarial Nets (GANs). Recent work on semantic image synthesis mainly follows the de facto GAN-based approaches, which may lead to unsatisfactory quality or diversity of generated images. In this paper, we propose a novel framework based on DDPM for semantic image synthesis. Unlike previous conditional diffusion model directly feeds the semantic layout and noisy image as input to a U-Net structure, which may not fully leverage the information in the input semantic mask, our framework processes semantic layout and noisy image differently. It feeds noisy image to the encoder of the U-Net structure while the semantic layout to the decoder by multi-layer spatially-adaptive normalization operators. To further improve the generation quality and semantic interpretability in semantic image synthesis, we introduce the classifier-free guidance sampling strategy, which acknowledge the scores of an unconditional model for sampling process. Extensive experiments on four benchmark datasets demonstrate the effectiveness of our proposed method, achieving state-of-the-art performance in terms of fidelity (FID) and diversity (LPIPS). Our code and pretrained models are available at https://github.com/WeilunWang/semantic-diffusion-model.
研究の動機と目的
- Fidelity と多様性において GAN ベースの手法を上回る意味的画像合成の拡散モデルフレームワークを開発する。
- 意味マスクとノイズ入力の別々の処理により意味情報の有効利用を促進する。
- 分類器不要ガイダンスを用いてサンプリング品質と意味対応を向上させる。
- Cityscapes、ADE20K、CelebAMask-HQ、COCO-Stuff データセットでの強力な性能を示す。
提案手法
- ノイズ画像がエンコーダを通過する一方、意味レイアウトをマルチレイヤーのスペース適応正規化(SPADE)を介してデコーダへ注入する、条件付きデノイジング拡散ネットワーク(SDM)を使用する。
- エンコーダ内で attention と timestep-aware scaling を備えた SDEResblocks を採用してデノイジングを行う。
- SDDResblock を用いて SPADE 風の条件付けをデコーダに注入し、デノイジングを誘導する。
- デノイジング損失に加え分散予測損失を用いて尤度を最大化する(L_simple + lambda * L_vlb)。
- サンプリング時に conditional と unconditional の予測を混ぜることで分類器不要ガイダンスを適用し、忠実度と意味整合性を高める(epsilon_theta(y_t|x) + s*(epsilon_theta(y_t|x) - epsilon_theta(y_t|empty)))。
- オプションで、確率的な拡散過程を活用して多モードで多様な生成を行う。
実験結果
リサーチクエスチョン
- RQ1拡散ベースのフレームワークは、意味的画像合成において Fidelity と Diversity の点で GAN ベース手法を上回れるか?
- RQ2意味マスクという conditioning 情報をノイズ画像と分離することは、意味的関連性と視覚品質を向上させるか?
- RQ3分類器不要ガイダンスが条件付き拡散モデルの忠実度と意味整合性に与える影響は?
- RQ4四つのベンチマークデータセットにおける SDM の FID、LPIPS、mIoUベースの意味的解釈性はどうなるか?
主な発見
| Method | CelebAMask-HQ FID | CelebAMask-HQ LPIPS | Cityscapes FID | Cityscapes LPIPS | ADE20K FID | ADE20K LPIPS | COCO-Stuff FID | COCO-Stuff LPIPS |
|---|---|---|---|---|---|---|---|---|
| Pix2PixHD [48] | 38.5 | 0 | 95.0 | 0 | 81.8 | 0 | 111.5 | 0 |
| SPADE [31] | 29.2 | 0 | 71.8 | 0 | 22.6 | 0 | 33.9 | 0 |
| DAGAN [44] | 29.1 | 0 | 60.3 | 0 | 31.9 | 0 | n/a | 0 |
| SCGAN [50] | 20.8 | 0 | 49.5 | 0 | 29.3 | 0 | 18.1 | 0 |
| CLADE [43] | 30.6 | 0 | 57.2 | 0 | 35.4 | 0 | 29.2 | 0 |
| CC-FPSE [24] | n/a | n/a | 54.3 | 0.026 | 31.7 | 0.078 | 19.2 | 0.098 |
| GroupDNet [57] | 25.9 | 0.365 | 47.3 | 0.101 | 41.7 | 0.230 | n/a | n/a |
| INADE [42] | 21.5 | 0.415 | 44.3 | 0.295 | 35.2 | 0.459 | n/a | n/a |
| OASIS [41] | n/a | n/a | 47.7 | 0.327 | 28.3 | 0.286 | 17.0 | 0.328 |
| SDM (Ours) | 18.8 | 0.422 | 42.1 | 0.362 | 27.5 | 0.524 | 15.9 | 0.518 |
- SDM は four Benchmark で prior methods に比べて最先端の FID および LPIPS を達成。
- デコーダ内でマルチレイヤーの SPADE 風条件付けを使って意味レイアウトを埋め込むことは、単純な結合より忠実度と意味的関連性を大幅に向上させる。
- 分類器不要ガイダンスは、LPIPS のわずかな変化で mIoU を大幅に改善し、FID も大きく改善される。意味整合性が向上。
- SDM は高品質で多様な意味的画像合成を提供し、マルチモーダル生成や実画像に対する意味編集も実現可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。