[論文レビュー] StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets
StyleGAN-XLは、Projected GANs、段階的成長、および classifier guidance により StyleGAN3 をスケールさせ、ImageNet規模データ(1024^2 解像度を含む)で最先端の画像合成を実現しつつ、 inversion および editing を可能にする。
Computer graphics has experienced a recent surge of data-centric approaches for photorealistic and controllable content creation. StyleGAN in particular sets new standards for generative modeling regarding image quality and controllability. However, StyleGAN's performance severely degrades on large unstructured datasets such as ImageNet. StyleGAN was designed for controllability; hence, prior works suspect its restrictive design to be unsuitable for diverse datasets. In contrast, we find the main limiting factor to be the current training strategy. Following the recently introduced Projected GAN paradigm, we leverage powerful neural network priors and a progressive growing strategy to successfully train the latest StyleGAN3 generator on ImageNet. Our final model, StyleGAN-XL, sets a new state-of-the-art on large-scale image synthesis and is the first to generate images at a resolution of $1024^2$ at such a dataset scale. We demonstrate that this model can invert and edit images beyond the narrow domain of portraits or specific object classes.
研究の動機と目的
- ImageNet のような大規模で構造化されていないデータセットで StyleGAN が苦戦する理由を調査し、ボトルネックを特定する。
- ImageNet規模データで安定した高品質の StyleGAN3 の訓練を可能にするためのアーキテクチャおよびトレーニング戦略を開発する。
- Projected GANs、マルチネットワーク特徴ガイダンス、および classifier guidance の多様なデータに対する利点を探る。
- 高解像度合成(最大 1024^2)を実演し、ImageNet クラスで inversion/editing を可能にする。
提案手法
- 翻訳的等価性を改善しエイリアシングを低減するため、StyleGAN3-T設定を用いて基盤生成モデルとして StyleGAN3 を採用する。
- feature projectors、cross-channel および cross-scale mixing を用いた Projected GAN 訓練を採用し、多様なデータでの訓練を安定させる。
- 潜在コードの次元を減らす(zを512から64へ)一方、スタイルコード(w)は512のままキャパシティを維持する。
- 事前学習済みの埋め込みを用いてクラス条件付き埋め込みを導入し、埋め込み崩壊を防ぎクラスの多様性を改善する。
- アリアシングを管理し 16^2 から 1024^2 へ拡大するように特別なスケジュールで段階的成長を再導入し、低解像度での大規模バッチ訓練と組み合わせる。
- 事前学習済み分類器からのクロスエントロピー損失を生成器に追加し、因子(lambda)でスケーリングして classifier guidance を適用する。
- 複数の事前学習済み特徴ネットワーク(EfficientNetと DeiT)を F に組み合わせ、Projected GANs に対して相補的な表現を可能にする。
実験結果
リサーチクエスチョン
- RQ1StyleGAN3 を ImageNet規模のデータセットへ効果的にスケールさせても、画像品質や多様性を失わないか?
- RQ2大規模で構造化されていないデータに対して、高品質で多様な生成を最も効果的に可能にする訓練戦略(Projected GANs、progressive growing、feature-network fusion、classifier guidance)は何か?
- RQ3クラス条件付けが Projected GANs と潜在空間設計とどのように相互作用して ImageNet におけるモードカバレッジを改善するか?
- RQ4ImageNet規模のモデルで inversion および editing を効果的に実行できるか、out-of-domain 入力を含めて?
- RQ5ImageNet規模の合成で最先端性能を達成するには、どの解像度と計算量が必要か?
主な発見
- StyleGAN-XL は 1024^2 を含む複数の解像度で ImageNet における最先端の画像合成を達成する。
- Projected GANs with a low-dimensional latent z and pretrained class embeddings stabilize training and improve sample diversity.
- EfficientNet と DeiT のバックボーンを特徴投影に組み合わせると、アブレーションの中で最良の FID/IS のトレードオフを得られる。
- アリアシング制御を伴う段階的成長は訓練時間を大幅に短縮し、メガピクセル合成を可能にする。
- Classifier guidance further improves image fidelity on higher resolutions.
- Inversion via PTI yields faithful reconstructions and smooth latent-space edits, including out-of-domain embeddings.
- StyleGAN-XL は inversion および editing 能力で競争力を示し、PTI が正確な埋め込みと滑らかな補間を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。