[论文解读] ViTGAN: Training GANs with Vision Transformers
ViTGAN 在 GAN 中集成 Vision Transformers,引入针对基于 ViT 的判别器和生成器的稳定化技术,在标准基准上达到与 StyleGAN2 竞争力的图像生成质量。
Recently, Vision Transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such performance can be extended to image generation. To this end, we integrate the ViT architecture into generative adversarial networks (GANs). For ViT discriminators, we observe that existing regularization methods for GANs interact poorly with self-attention, causing serious instability during training. To resolve this issue, we introduce several novel regularization techniques for training GANs with ViTs. For ViT generators, we examine architectural choices for latent and pixel mapping layers to facilitate convergence. Empirically, our approach, named ViTGAN, achieves comparable performance to the leading CNN-based GAN models on three datasets: CIFAR-10, CelebA, and LSUN bedroom.
研究动机与目标
- 探索 Vision Transformers 是否能在不使用卷积层的情况下生成高质量图像。
- 为使用 ViT 基判别器和生成器的 GAN 训练开发稳定化技术。
- 在标准基准上展示 ViTGAN 的性能,并与基于 CNN 的 GAN 进行比较。
提出的方法
- 采用基于 ViT 的判别器,使用改进的 L2 注意力和增强谱归一化(ISN)来增强 Lipschitz 正则化。
- 通过覆盖的图像块和针对 ViT 的不稳定性进行定制正则化来稳定训练。
- 设计一个两部分结构的基于 ViT 的生成器:带自调制的层归一化的变换器块,以及一个隐式神经表示映射(块嵌入到像素)。
- 引入自调制层归一化(SLN),通过一个 MLP 将潜在变量 z 控制以实现动态归一化。
- 使用隐式神经表示将块嵌入映射到块像素,并通过傅里叶特征增强以实现平滑性。
实验结果
研究问题
- RQ1Vision Transformers 能否在图像合成的 GAN 中实现稳定训练动力学?
- RQ2为稳定 ViT 基 GAN 训练需要哪些正则化和架构调整?
- RQ3在标准基准上,基于 ViT 的生成器在图像质量和多样性方面与基于 CNN 的生成器相比如何?
主要发现
| Architecture | Conv | Pool | CIFAR FID | CIFAR IS | CelebA FID | CelebA IS | LSUN FID | LSUN IS |
|---|---|---|---|---|---|---|---|---|
| BigGAN + DiffAug | ✓ | ✓ | 8.59 | 9.25 | - | - | - | - |
| StyleGAN2 | ✓ | ✓ | 11.1 | 9.18 | 3.39 | 3.43 | 3.25 | 2.45 |
| TransGAN-XL | - | ✓ | 11.9 | 8.63 | - | - | - | - |
| Vanilla-ViT | - | - | 12.7 | 8.40 | 20.2 | 2.57 | 218.1 | 2.20 |
| ViTGAN (Ours) | - | - | 6.66 | 9.30 | 3.74 | 3.21 | 2.65 | 2.36 |
- ViTGAN 在 CIFAR-10 获得 FID 6.66、CelebA 3.74、LSUN Bedroom 2.65,IS 分别为 9.30、3.21、2.36,优于原生 ViT 基线。
- ViTGAN 以较大幅度超越基于 Transformer 的基线,在三项基准上均与 StyleGAN2 具有竞争力。
- 将 L2 注意力与改进的谱归一化(ISN)相结合的正则化,以及重叠图像块的策略,稳定训练并减少梯度尖峰。
- 具备隐式神经表示的块解码生成器结构,相较线性映射提高了 GAN 的稳定性和图像保真度。
- ViTGAN 与基于 CNN 的判别器/生成器兼容,与 StyleGAN2 组件混合时仍保持强劲性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。