[論文レビュー] The GAN is dead; long live the GAN! A Modern GAN Baseline
この論文は0-GPペナルティを備えた良く振る舞う正則化RpGAN損失を導入し、ミニマリストで現代的なバックボーンGAN(R3GAN)を可能にし、FFHQ、ImageNet、CIFAR、Stacked MNISTで実証的な工夫なしに強力なFIDスコアを達成する。
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.
研究の動機と目的
- GANは慣例的な工夫なしに原理的な損失で安定に学習できると主張する。
- RpGANを0中心勾配ペナルティで正則化して良好な挙動の損失を開発する。
- StyleGANの工夫を廃しつつ現代的なConvNet/Transformer風アーキテクチャへバックボーンをアップグレードする。
- ミニマリストなR3GANベースラインが複数データセットで優位または競争力のあるFIDを達成することを示す。
提案手法
- RpGANを定式化し、局所収束を保証するためにR1とR2による0中心勾配ペナルティを追加する。
- RpGANとR1/R2が合理的な仮定の下で局所収束することを証明する。
- 時代遅れのバックボーンを現代的なResNet/ConvNeXt風アーキテクチャへ置換し、StyleGANの非本質的要素を削減する。
- FFHQ-256、CIFAR-10、ImageNetタスクにおいてStyleGAN2ベースラインから現代化したR3GANへの構成を体系的に評価する。
- StackedMNISTを対象にモード回復とp_thetaとp_DのKLダイバージョンを測定する実験を行う。
実験結果
リサーチクエスチョン
- RQ10-GPを備えた正則化RpGAN損失は安定した収束と良好なサンプル多様性を empirical tricks なしで提供できるか?
- RQ2標準ベンチマークでFIDを維持または改善しつつGANバックボーンをどこまで単純化できるか?
- RQ3RpGAN+R1+R2と組み合わせた場合の現代的バックボーン再設計(ConvNeXt/ResNet風)がGAN性能に与える影響は?
- RQ4StackedMNISTのような難易度の高いデータセットで簡略化されたベースラインR3GANはモードカバレッジとRecallにどう影響するか?
- RQ5R3GANはFFHQとImageNetにおけるFID、NFE、サンプル品質の点で拡散モデルと比べてどうか?
主な発見
| Configuration | FID FFHQ-256 |
|---|---|
| A (StyleGAN2) | 7.516 |
| B (Stripped StyleGAN2) | 12.46 |
| C (Well-behaved Loss) | 11.65 |
| D (ConvNeXt-ify pt. 1) | 9.95 |
| E (ConvNeXt-ify pt. 2) | 7.045 |
- RpGANにR1とR2の両方を適用すると安定した学習が得られ、RpGAN単独またはR1のみで観察される発散的挙動を上回る。
- 良好な挙動を持つ損失により現代的バックボーンを可能にし、FFHQ-256でStyleGAN2を上回り、複数データセットでいくつかのSOTA GANおよび一部拡散モデルを凌駕。
- 初期化とリサンプリングを慎重に行った現代風のResNet/ConvNeXtバックボーンはStyleGAN2ベースラインよりFIDを改善(FFHQ-256: 9.95 から 7.05へ、最終E構成)。
- StackedMNISTではConfig Eモデルが1000モード回復を全て達成し、D_KLが低水準となり多くの従来のGANを凌駕。
- CIFAR-10およびImageNetの variantesでConfig Eは多くの拡散モデルより少ないパラメータで競争力あるまたは優れたFIDを達成し、単一ステップ生成を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。