QUICK REVIEW

[논문 리뷰] ViTGAN: Training GANs with Vision Transformers

Kwonjoon Lee, Hui‐Wen Chang|arXiv (Cornell University)|2021. 07. 09.

Advanced Neural Network Applications참고 문헌 60인용 수 79

한 줄 요약

ViTGAN은 비전 트랜스포머를 GAN에 통합하고 ViT 기반 판별기와 생성기를 위한 안정화 기법을 도입하여 표준 벤치마크에서 StyleGAN2와 비슷한 이미지 생성 품질을 달성합니다.

ABSTRACT

Recently, Vision Transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such performance can be extended to image generation. To this end, we integrate the ViT architecture into generative adversarial networks (GANs). For ViT discriminators, we observe that existing regularization methods for GANs interact poorly with self-attention, causing serious instability during training. To resolve this issue, we introduce several novel regularization techniques for training GANs with ViTs. For ViT generators, we examine architectural choices for latent and pixel mapping layers to facilitate convergence. Empirically, our approach, named ViTGAN, achieves comparable performance to the leading CNN-based GAN models on three datasets: CIFAR-10, CelebA, and LSUN bedroom.

연구 동기 및 목표

비전 트랜스포머가 컨볼루션 계층 없이도 고품질 이미지를 생성할 수 있는지 탐구한다.
ViT 기반 판별기와 생성기를 사용한 GAN 학습의 안정화 기법을 개발한다.
표준 벤치마크에서 ViTGAN의 성능을 입증하고 CNN 기반 GAN과의 비교를 제시한다.

제안 방법

향상된 L2 주의(attention)와 보강된 스펙트럴 정규화(ISN)을 활용한 강화된 Lipschitz 정규화를 갖춘 ViT 기반 판별기를 채택한다.
ViT 특유의 불안정성을 다루기 위한 overlapped 이미지 패치와 맞춤형 정규화를 통해 학습을 안정화한다.
자기 모듐화된 레이어노름(SLN)으로 제어되는 트랜스포머 블록과 패치 임베딩을 픽셀로 매핑하는 암시적(implicit) 신경 표현 맵핑으로 구성된 ViT 기반 생성기를 설계한다.
잠재 벡터 z를 통해 MLP로 동적 정규화를 제어하는 SLN을 사용한다.
패치 임베딩을 패치 픽셀로 매핑하는 암시적 신경 표현을 도입하고 Fourier 특성으로 매끄러움을 높여 GAN의 안정성과 품질을 개선한다.

실험 결과

연구 질문

RQ1비전 트랜스포머를 이미지 합성에 사용해 안정적인 학습 다이내믹스를 달성할 수 있는가?
RQ2ViT 기반 GAN 학습의 안정화를 위해 필요한 정규화 및 아키텍처 조정은 무엇인가?
RQ3ViT 기반 생성기가 표준 벤치마크에서 CNN 기반 생성기와 비교해 이미지 품질 및 다양성에서 어떠한 차이가 있는가?

주요 결과

아키텍처	컨볼루션	풀링	CIFAR FID	CIFAR IS	CelebA FID	CelebA IS	LSUN FID	LSUN IS
BigGAN + DiffAug	✓	✓	8.59	9.25	-	-	-	-
StyleGAN2	✓	✓	11.1	9.18	3.39	3.43	3.25	2.45
TransGAN-XL	-	✓	11.9	8.63	-	-	-	-
Vanilla-ViT	-	-	12.7	8.40	20.2	2.57	218.1	2.20
ViTGAN (Ours)	-	-	6.66	9.30	3.74	3.21	2.65	2.36

ViTGAN은 CIFAR-10에서 6.66, CelebA에서 3.74, LSUN Bedroom에서 2.65의 FID 점수와 각각 9.30, 3.21, 2.36의 IS 점수를 달성하며 vanilla ViT 기반 대비 향상된 성능을 보인다.
ViTGAN은 Transformer 기반 벤치마크보다 큰 폭으로 우수하며 세 가지 벤치마크에서 StyleGAN2와 경쟁력이 있다.
L2 주의와 개선된 스펙트럴 정규화(ISN)와 겹치는 패치를 결합한 정규화가 학습을 안정화하고 그래디언트 급등을 감소시킨다.
패치 디코딩을 위한 암시적 신경 표현을 갖춘 생성기 아키텍처가 선형 매핑보다 GAN의 안정성과 이미지 충실도를 개선한다.
ViTGAN은 CNN 기반 판별기/생성기와 호환되며 StyleGAN2 구성 요소와 혼합 시에도 강한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.