Skip to main content
QUICK REVIEW

[論文レビュー] Diffusion Models Beat GANs on Image Synthesis

Prafulla Dhariwal, Alex Nichol|arXiv (Cornell University)|May 11, 2021
Generative Adversarial Networks and Image Synthesis参考文献 60被引用数 2,167
ひとこと要約

拡散モデルはアーキテクチャの改良と分類器ガイダンスにより最先端の画像合成を実現し、いくつかのベンチマークでGANを上回り、少ないサンプリングステップで高忠実度を可能にする。

ABSTRACT

We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128$\times$128, 4.59 on ImageNet 256$\times$256, and 7.72 on ImageNet 512$\times$512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256$\times$256 and 3.85 on ImageNet 512$\times$512. We release our code at https://github.com/openai/guided-diffusion

研究の動機と目的

  • 拡散モデルが複数のデータセットと解像度にわたる無条件生成において、画像合成品質でGANを上回ることを実証する。
  • スケール時に拡散モデルのサンプル品質を向上させるアーキテクチャ改善を特定する。
  • 条件付き画像合成のために、サンプル忠実度と多様性のトレードオフを可能にする分類器ガイド付きサンプリング機構を開発する。
  • 分類器ガイダンスがアップサンプリング拡散モデルとどのように協調して品質をさらに向上させるかを探る。

提案手法

  • timestep情報とクラス情報を注入するために、深さを増したUNet風拡散アーキテクチャ、マルチレゾリューションアテンション、BigGAN風のアップ/ダウンサンプリング、適応的グループ正規化を採用した。
  • ImageNetで128x128、256x256、512x512で拡散モデルを訓練し、FIDなど関連指標で評価した。
  • ノイズ付きサンプル上で分類器 p_phi(y|x_t) を訓練し、log p_phi(y|x_t) の勾配を用いて拡散サンプリングを操作する分類器ガイダンスを導入した(勾配スケールパラメータ s を含む)。
  • 分類器勾配が逆ノイズ化過程の平均をどのようにシフトさせるかを示す条件付きサンプリング公式を導出し、分類器ガイド付き生成の実用的なサンプリングアルゴリズム(DDIMあり/なし)を提供した。
  • 忠実度と多様性のトレードオフを定量化するために、無条件ガイダンス、条件付きガイダンス、アップサンプリング拡散スタックを比較した。
  • LSUNおよびImageNetタスクで最先端の生成モデルと比較し、リコールと精度指標を用いてカバレージを評価した。

実験結果

リサーチクエスチョン

  • RQ1拡散モデルは標準ベンチマーク全体で無条件タスクにおいてGANを上回る画像合成品質を達成できるか?
  • RQ2高解像度で拡散モデルのサンプル品質を最も改善するアーキテクチャの変更は何か?
  • RQ3分類器ガイダンスを用いて拡散モデルをどのように条件付けできるか、勾配スケーリングは忠実度と多様性にどう影響するか?
  • RQ4分類器ガイダンスとアップサンプリング拡散モデルの組み合わせは、単独の手法より補完的な向上をもたらすか?

主な発見

  • マルチレゾリューションアテンションを備えたより深い幅、BigGAN風のアップ/ダウンサンプリングを含むアーキテクチャ改善は、ImageNet 128x128のFIDを大幅に改善し、より高解像度へとスケールさせる。
  • timestepとクラス情報を注入する適応的正規化(AdaGN)は、ベースラインのプロジェクションブロックに対してさらにFIDを改善した。
  • 勾配スケーリング因子を伴う分類器ガイダンスは、サンプル忠実度とクラス一貫性を著しく改善し、いくつかの設定でわずか25回の拡散ステップで高品質な条件付き生成を可能にする。
  • ガイド付き無条件モデルは、ガイド付き条件付きモデルのFIDに近づくことができ、ガイド付き条件付きモデルはさらにFIDを改善し、強い条件付け効果を示す。
  • ガイダンスとアップサンプリングは補完的で、ADM-GとADM-Uを組み合わせたとき、ImageNet-256および-512タスクでFIDとリコールの最良のトレードオフを達成する。
  • タスクを問わず、ガイダンス付きの拡散モデルはLSUNとImageNetのテストで最先端のFIDとsFIDを達成し、しばしばBigGAN-deepを上回り、対象のGANベース手法より分布カバレージ(リコール)が高くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。