[논문 리뷰] TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up
TransGAN은 컨볼루션 없이 순수 Transformer로 구성된 GAN으로, 메모리 친화적인 제너레이터, 다중 스케일 디스크리미네이터, 그리드 자기-주의를 특징으로 하며, 경쟁력 있는 결과와 고해상도 생성의 확장성을 달성합니다.
The recent explosive interest on transformers has suggested their potential to become powerful "universal" models for computer vision tasks, such as classification, detection, and segmentation. While those attempts mainly study the discriminative models, we explore transformers on some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs). Our goal is to conduct the first pilot study in building a GAN completely free of convolutions, using only pure transformer-based architectures. Our vanilla GAN architecture, dubbed TransGAN, consists of a memory-friendly transformer-based generator that progressively increases feature resolution, and correspondingly a multi-scale discriminator to capture simultaneously semantic contexts and low-level textures. On top of them, we introduce the new module of grid self-attention for alleviating the memory bottleneck further, in order to scale up TransGAN to high-resolution generation. We also develop a unique training recipe including a series of techniques that can mitigate the training instability issues of TransGAN, such as data augmentation, modified normalization, and relative position encoding. Our best architecture achieves highly competitive performance compared to current state-of-the-art GANs using convolutional backbones. Specifically, TransGAN sets new state-of-the-art inception score of 10.43 and FID of 18.28 on STL-10, outperforming StyleGAN-V2. When it comes to higher-resolution (e.g. 256 x 256) generation tasks, such as on CelebA-HQ and LSUN-Church, TransGAN continues to produce diverse visual examples with high fidelity and impressive texture details. In addition, we dive deep into the transformer-based generation models to understand how their behaviors differ from convolutional ones, by visualizing training dynamics. The code is available at https://github.com/VITA-Group/TransGAN.
연구 동기 및 목표
- 이미지 생성을 위한 순수 Transformer 아키텍처를 사용한 컨볼루션 없는 GAN의 탐구를 촉진한다.
- 메모리 효율적인 제너레이터와 Transformer 기반 GAN에 적합한 다중 스케일 디스크리미네이터를 설계한다.
- 훈련의 안정화와 화질 향상을 위해 (그리드 자기-주의, 데이터 증강, 수정된 정규화, 상대 위치 인코딩) 등의 기법을 개발한다.
- CNN 기반 GAN과의 성능 및 확장성을 평가하기 위해 작은 데이터셋과 큰 데이터셋에서 TransGAN을 평가한다.
제안 방법
- 점차적으로 특징 맵 해상도를 증가시키는 메모리 친화적 다단계 Transformer 기반 제너레이터를 사용한다.
- 전역 컨텍스트와 로컬 질감을 포착하기 위해 서로 다른 크기의 패치를 처리하는 다중 스케일 디스크리미네이터를 구현한다.
- 전역 일관성을 유지하면서 고해상도에서의 메모리 부담을 줄이기 위해 Grid Self-Attention를 도입한다.
- 강력한 데이터 증강, 수정된 정규화(토큰 단위 스케일링), 상대 위치 인코딩을 포함하는 훈련 레시피를 적용하여 훈련의 안정화를 도모한다.
- 고품질 시각 결과와 제거 실험(ablation studies)을 포함하여 고해상도 생성(예: 256×256)으로 확장한다.
실험 결과
연구 질문
- RQ1순수한 트랜스포머 구성요소를 사용하여 컨볼루션 계층 없이 GAN을 효과적으로 구축할 수 있는가?
- RQ2 Transformer 기반 GAN에서 안정적이고 고충실도 이미지 생성을 가능하게 하는 건축적 및 훈련 전략은 무엇인가?
- RQ3메모리 효율적인 어텐션 메커니즘(예: 그리드 자기-주의)이 고해상도에서 품질과 확장성에 어떤 영향을 미치는가?
- RQ4데이터 증강과 상대 위치 인코딩이 TransGAN의 훈련 안정성과 성능에 어떤 영향을 미치는가?
주요 결과
| Method | CIFAR-10 IS ↑ | CIFAR-10 FID ↓ | STL-10 IS ↑ | STL-10 FID ↓ | CelebA FID ↓ |
|---|---|---|---|---|---|
| TransGAN | 9.02 ± 0.12 | 9.26 | 10.43 ± 0.16 | 18.28 | 5.28 |
- TransGAN은 강력한 데이터 증강과 함께 CIFAR-10, STL-10, CelebA에서 최첨단 CNN 기반 GAN과 비교할 만한 정량적 결과를 달성한다.
- CIFAR-10에서 TransGAN은 Inception Score 9.02 및 FID 9.26을 달성한다.
- STL-10에서 Inception Score 10.43 및 FID 18.28을 달성한다.
- CelebA (128×128)에서 FID 5.28을 달성하여 보고된 최고 결과에 근접한다.
- TransGAN은 더 높은 해상도 생성(예: 256×256)으로 확장하며 256×256 CelebA-HQ 및 LSUN Church 시연에서 다양한 고화질 출력을 보여준다.
- 절제 연구는 그리드 자기-주의와 제안된 훈련 레시피(데이터 증강, 수정된 정규화, 상대 위치 인코딩)가 성능을 크게 향상시킨다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.