Skip to main content
QUICK REVIEW

[논문 리뷰] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Axel Sauer, Tero Karras|arXiv (Cornell University)|2023. 01. 23.
Generative Adversarial Networks and Image Synthesis인용 수 61
한 줄 요약

StyleGAN-T는 StyleGAN-XL을 대규모 텍스트-이미지 생성에 적용하여 빠른 단일 패스 추론(이미지당 약 0.1초)을 달성하고 텍스트 정합이 뛰어나며 저해상도에서 경쟁력 있는 품질을 제공하는 동시에 이 영역에서 확산 모델에 맞서는 GAN 기반 성능을 선도한다.

ABSTRACT

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

연구 동기 및 목표

  • 매우 큰 데이터셋에서 빠르고 확장 가능한 텍스트-이미지 합성의 필요성을 제시한다.
  • 생성기와 판별기를 텍스트 조건 합성에 맞춰 재설계하여 GAN의 경쟁력을 높인다.
  • 주어진 계산 예산에서 다양한 이미지 출력을 유지하면서 텍스트 정렬을 개선한다.
  • 텍스트 조건 부합과 실용적인 잠재 공간 조작 간의 제어 가능한 변화를 가능하게 한다.

제안 방법

  • 비등가(non-equivariant) StyleGAN2 스타일의 생성기 백본을 갖춘 StyleGAN-XL에서 영감을 얻은 기본 아키텍처.
  • GroupNorm과 Layer Scale을 갖춘 잔차 블록으로 생성기 용량을 강화해 훈련을 안정화한다.
  • 매핑 네트워크를 우회하고 2차 차수 스타일 상호 작용 s = s1 ⊗ s2 + s3를 사용해 텍스트 조건화를 강화한다.
  • 다섯 개의 평행 헤드를 가진 ViT-S 백본과 differentiable augmentations를 사용한 판별기를 재설계한다.
  • 훈련에 CLIP 기반 가이던스를 도입하여 텍스트 프롬프트와 이미지의 정렬을 맞추고(L_CLIP) 신중한 가중치를 적용한다.
  • 추론 시 w = [f(z), c_text]에서 per-prompt 평균 w̄로 점진적으로 이동하며 절단을 구현하고, 텍스트 정렬을 더욱 개선하기 위해 2단계 텍스트 인코더 전략을 도입한다.

실험 결과

연구 질문

  • RQ1실용 예산으로 대규모 텍스트-이미지 합성을 위해 GAN을 확산 모델과 경쟁력 있게 만들 수 있을까?
  • RQ2GAN 기반 T2I에서 강력한 텍스트 정합과 제어 가능한 변화를 얻기 위한 생성기/판별기 설계 선택은 무엇인가?
  • RQ3CLIP 가이던스 손실과 절단이 GAN의 이미지 충실도와 텍스트 정합성에 미치는 영향은 무엇인가?
  • RQ4CLIP 정합 및 FID에 대한 텍스트 인코더 훈련 대 생성기 훈련 등의 학습 단계 전략의 영향은 무엇인가?

주요 결과

  • StyleGAN-T는 64x64에서 제로샷 MS COCO FID를 기존의 GAN 기반 방법들이 달성한 값의 절반으로 줄이고, 256x256에서의 FID를 절반으로 감소시키면서도 높은 속도 추론을 제공합니다.
  • 재설계된 생성기와 판별기는 가벼운 설정에서 StyleGAN-XL 기반선 대비 FID 및 CLIP 점수를 약 10% 향상시킵니다.
  • 다섯-헤드 판별기(DINO/Large ViT-S 특징 백본)와 differentiable augmentations를 갖춘 설계가 이전 설계 대비 FID과 CLIP 성능에서 약 40%의 추가 이득을 제공합니다.
  • CLIP 가이던스는 FID/CLIP 지표에서 텍스트 정합을 약 20% 향상시키며, 절단은 텍스트 정합을 더욱 높이지만 과도한 가이던스는 충실도를 해칠 수 있습니다.
  • 두 단계 텍스트 인코더 전략으로 매우 높은 CLIP 가이던스 가중치를 artefact 없이 사용할 수 있어 텍스트 정합을 크게 향상시키면서 FID를 해치지 않습니다.
  • 대규모 스케일에서 StyleGAN-T는 대략 10억 매개변수에 도달하며 64개 A100 GPU에서 4주 예산으로 2.5억 이미지-텍스트 쌍에 대해 학습되었고, 적합한 하드웨어에서 이미지당 약 0.1초의 추론 속도를 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.