[논문 리뷰] TransGAN: Two Transformers Can Make One Strong GAN
TransGAN은 컨볼루션을 사용하지 않고 완전히 트랜스포머 기반으로 구성된 GAN 아키텍처를 제안한다. 메모리 효율적인 점진적 해상도 생성기와 패치 수준의 트랜스포머 판별기로 구성되어 있으며, STL-10에서 IS 10.10, FID 25.32의 최고 성능을 기록하여 고해상도 이미지 생성 과제에서 컨볼루션 기반 GAN을 능가한다.
The recent explosive interest on transformers has suggested their potential to become powerful universal models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? Driven by that curiosity, we conduct the first pilot study in building a GAN extbf{completely free of convolutions}, using only pure transformer-based architectures. Our vanilla GAN architecture, dubbed extbf{TransGAN}, consists of a memory-friendly transformer-based generator that progressively increases feature resolution while decreasing embedding dimension, and a patch-level discriminator that is also transformer-based. We then demonstrate TransGAN to notably benefit from data augmentations (more than standard GANs), a multi-task co-training strategy for the generator, and a locally initialized self-attention that emphasizes the neighborhood smoothness of natural images. Equipped with those findings, TransGAN can effectively scale up with bigger models and high-resolution image datasets. Specifically, our best architecture achieves highly competitive performance compared to current state-of-the-art GANs based on convolutional backbones. Specifically, TransGAN sets extbf{new state-of-the-art} IS score of 10.10 and FID score of 25.32 on STL-10. It also reaches competitive 8.64 IS score and 11.89 FID score on Cifar-10, and 12.23 FID score on CelebA $64 imes64$, respectively. We also conclude with a discussion of the current limitations and future potential of TransGAN. The code is available at \url{this https URL}.
연구 동기 및 목표
- 트랜스포머만으로도 생성적 적대적 네트워크에서 컨볼루션 네트워크를 대체할 수 있는지 조사하기.
- 완전히 컨벌루션 없이 오직 자기주의 기반 메커니즘에 의존하는 GAN 아키텍처의 가능성 탐색하기.
- 데이터 증강, 다중 작업 동시 훈련, 트랜스포머 기반 프레임워크 내 국소적으로 초기화된 자기주의를 활용하여 이미지 생성 품질 향상하기.
- 메모리 효율성과 성능를 유지하면서 고해상도 데이터셋에 대해 모델을 효과적으로 스케일링하기.
제안 방법
- 특징 맵 크기를 점진적으로 증가시키면서 임bedding 차원을 감소시키는 트랜스포머 기반의 메모리 우수한 점진적 해상도 생성기 설계하기.
- 패치 수준에서 국소적 이미지 현실감을 평가하기 위해 트랜스포머 아키텍처를 사용한 패치 수준의 판별기 구현하기.
- 표준 GAN보다 더 효과적으로 데이터 증강을 적용하여 훈련 안정성과 일반화 성능 향상시키기.
- 특징 학습과 다양성을 향상시키기 위해 생성기의 다중 작업 동시 훈련 전략 도입하기.
- 공간적 매끄러움을 강조하고 국소적 이미지 구조를 유지하기 위해 국소적으로 초기화된 자기주의 통합하기.
- 성능 저하 없이 더 큰 데이터셋과 고해상도에 대응하기 위해 모델 아키텍처를 확장하기.
실험 결과
연구 질문
- RQ1컨벌루션 레이어 없이도 트랜스포머만으로 GAN을 구성할 수 있는가?
- RQ2데이터 증강은 순수 트랜스포머 기반 GAN에서 훈련 동역학과 성능에 어떤 영향을 미치는가?
- RQ3다중 작업 동시 훈련과 국소적으로 초기화된 자기주의는 트랜스포머 기반 생성기에서 생성 이미지의 품질과 다양성 향상에 기여하는가?
- RQ4고해상도 데이터셋에 스케일링된 컨벌루션 없는 GAN의 성능 한계는 어디까지인가?
- RQ5제안된 TransGAN은 컨벌루션 기반 백본을 가진 최신 SOTA GAN들과 FID 및 IS 점수 측면에서 어떻게 비교되는가?
주요 결과
- TransGAN은 STL-10 데이터셋에서 새로운 SOTA 성능을 기록하며, Inception Score(IS)는 10.10, Fréchet Inception Distance(FID)는 25.32를 달성한다.
- Cifar-10에서 TransGAN은 IS 점수 8.64, FID 11.89를 기록하여 컨벌루션 기반 GAN과 경쟁 가능한 성능을 보였다.
- 64×64 해상도의 CelebA에서 TransGAN은 FID 점수 12.23을 기록하여 얼굴 이미지 합성에서 뛰어난 생성 품질을 입증했다.
- 모델은 데이터 증강 기법에서 크게 유리함을 보였으며, 이러한 기법을 적용했을 때 표준 GAN보다 더 큰 향상 효과를 보였다.
- 다중 작업 동시 훈련과 국소적으로 초기화된 자기주의의 조합은 특징 학습과 이미지 현실감 향상에 기여했다.
- TransGAN은 더 큰 모델과 고해상도 데이터셋에 대해 효과적으로 스케일링되며, 컨벌루션의 인덕티브 바이어스에 의존하지 않고도 강력한 성능 유지를 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.