[論文レビュー] ViTGAN: Training GANs with Vision Transformers
ViTGANはVision TransformersをGANへ組み込み、ViTベースの識別器と生成器の安定化手法を導入することで、標準ベンチマークでStyleGAN2と競合する画像生成品質を達成します。
Recently, Vision Transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such performance can be extended to image generation. To this end, we integrate the ViT architecture into generative adversarial networks (GANs). For ViT discriminators, we observe that existing regularization methods for GANs interact poorly with self-attention, causing serious instability during training. To resolve this issue, we introduce several novel regularization techniques for training GANs with ViTs. For ViT generators, we examine architectural choices for latent and pixel mapping layers to facilitate convergence. Empirically, our approach, named ViTGAN, achieves comparable performance to the leading CNN-based GAN models on three datasets: CIFAR-10, CelebA, and LSUN bedroom.
研究の動機と目的
- 畳み込み層を用いずにVision Transformersが高品質な画像を生成できるかを検討する。
- ViTベースの識別器と生成器を用いたGAN訓練の安定化手法を開発する。
- 標準ベンチマークでViTGANの性能を示し、CNNベースのGANと比較する。
提案手法
- 改善されたL2アテンションと拡張スペクトル正規化(ISN)を用いた強化リプシッツ正則化を備えたViTベースの識別器を採用する。
- ViT固有の不安定性に対処するため、重ね合わせパッチと適切な正則化を用いて訓練を安定化する。
- 自己調節層正規化を備えたTransformerブロックと、パッチ埋め込みをピクセルへ写像する暗黙のニューラル表現マッピングという二部構成のViTベース生成器を設計する。
- 潜在ベクトルzを介してMLPで制御される自己調節層正規化(SLN)を組み込み、動的正規化を実現する。
- パッチ埋め込みをパッチピクセルへ写像する暗黙のニューラル表現を使用し、滑らかさのためにフーリエ特徴を強化する。
実験結果
リサーチクエスチョン
- RQ1Vision TransformersをGANでの画像合成に効果的に使用し、安定した訓練ダイナミクスを得られるか?
- RQ2ViTベースのGAN訓練を安定化させるために必要な正則化とアーキテクチャの調整は何か?
- RQ3標準ベンチマークにおける画像品質と多様性で、ViTベースの生成器はCNNベースの生成器とどのように比較されるか?
主な発見
| アーキテクチャ | 畳み込み | プーリング | CIFAR FID | CIFAR IS | CelebA FID | CelebA IS | LSUN FID | LSUN IS |
|---|---|---|---|---|---|---|---|---|
| BigGAN + DiffAug | ✓ | ✓ | 8.59 | 9.25 | - | - | - | - |
| StyleGAN2 | ✓ | ✓ | 11.1 | 9.18 | 3.39 | 3.43 | 3.25 | 2.45 |
| TransGAN-XL | - | ✓ | 11.9 | 8.63 | - | - | - | - |
| Vanilla-ViT | - | - | 12.7 | 8.40 | 20.2 | 2.57 | 218.1 | 2.20 |
| ViTGAN (Ours) | - | - | 6.66 | 9.30 | 3.74 | 3.21 | 2.65 | 2.36 |
- ViTGANはCIFAR-10でFID6.66、CelebAで3.74、LSUN Bedroomで2.65、ISはそれぞれ9.30、3.21、2.36を達成し、素のViTベースのベースラインを上回る。
- ViTGANはTransformerベースのベースラインを大幅に上回り、3つのベンチマークすべてでStyleGAN2と競合する。
- 正則化としてL2アテンションと改良スペクトル正規化(ISN)を組み合わせ、パッチの重ね合わせとともに訓練を安定化し、勾配のスパイクを低減する。
- 暗黙のニューラル表現を用いたパッチデコーディングの生成器アーキテクチャは、線形写像よりもGANの安定性と画像忠実度を向上させる。
- ViTGANはCNNベースの識別器/生成器と互換性があり、StyleGAN2コンポーネントと組み合わせた場合にも高い性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。