QUICK REVIEW

[논문 리뷰] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Axel Sauer, Tero Karras|arXiv (Cornell University)|2023. 01. 23.

Generative Adversarial Networks and Image Synthesis인용 수 61

한 줄 요약

StyleGAN-T는 StyleGAN-XL을 대규모 텍스트-이미지 생성에 적용하여 빠른 단일 패스 추론(이미지당 약 0.1초)을 달성하고 텍스트 정합이 뛰어나며 저해상도에서 경쟁력 있는 품질을 제공하는 동시에 이 영역에서 확산 모델에 맞서는 GAN 기반 성능을 선도한다.

ABSTRACT

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

연구 동기 및 목표

매우 큰 데이터셋에서 빠르고 확장 가능한 텍스트-이미지 합성의 필요성을 제시한다.
생성기와 판별기를 텍스트 조건 합성에 맞춰 재설계하여 GAN의 경쟁력을 높인다.
주어진 계산 예산에서 다양한 이미지 출력을 유지하면서 텍스트 정렬을 개선한다.
텍스트 조건 부합과 실용적인 잠재 공간 조작 간의 제어 가능한 변화를 가능하게 한다.

제안 방법

비등가(non-equivariant) StyleGAN2 스타일의 생성기 백본을 갖춘 StyleGAN-XL에서 영감을 얻은 기본 아키텍처.
GroupNorm과 Layer Scale을 갖춘 잔차 블록으로 생성기 용량을 강화해 훈련을 안정화한다.
매핑 네트워크를 우회하고 2차 차수 스타일 상호 작용 s = s1 ⊗ s2 + s3를 사용해 텍스트 조건화를 강화한다.
다섯 개의 평행 헤드를 가진 ViT-S 백본과 differentiable augmentations를 사용한 판별기를 재설계한다.
훈련에 CLIP 기반 가이던스를 도입하여 텍스트 프롬프트와 이미지의 정렬을 맞추고(L_CLIP) 신중한 가중치를 적용한다.
추론 시 w = [f(z), c_text]에서 per-prompt 평균 w̄로 점진적으로 이동하며 절단을 구현하고, 텍스트 정렬을 더욱 개선하기 위해 2단계 텍스트 인코더 전략을 도입한다.

실험 결과

연구 질문

RQ1실용 예산으로 대규모 텍스트-이미지 합성을 위해 GAN을 확산 모델과 경쟁력 있게 만들 수 있을까?
RQ2GAN 기반 T2I에서 강력한 텍스트 정합과 제어 가능한 변화를 얻기 위한 생성기/판별기 설계 선택은 무엇인가?
RQ3CLIP 가이던스 손실과 절단이 GAN의 이미지 충실도와 텍스트 정합성에 미치는 영향은 무엇인가?
RQ4CLIP 정합 및 FID에 대한 텍스트 인코더 훈련 대 생성기 훈련 등의 학습 단계 전략의 영향은 무엇인가?

주요 결과

StyleGAN-T는 64x64에서 제로샷 MS COCO FID를 기존의 GAN 기반 방법들이 달성한 값의 절반으로 줄이고, 256x256에서의 FID를 절반으로 감소시키면서도 높은 속도 추론을 제공합니다.
재설계된 생성기와 판별기는 가벼운 설정에서 StyleGAN-XL 기반선 대비 FID 및 CLIP 점수를 약 10% 향상시킵니다.
다섯-헤드 판별기(DINO/Large ViT-S 특징 백본)와 differentiable augmentations를 갖춘 설계가 이전 설계 대비 FID과 CLIP 성능에서 약 40%의 추가 이득을 제공합니다.
CLIP 가이던스는 FID/CLIP 지표에서 텍스트 정합을 약 20% 향상시키며, 절단은 텍스트 정합을 더욱 높이지만 과도한 가이던스는 충실도를 해칠 수 있습니다.
두 단계 텍스트 인코더 전략으로 매우 높은 CLIP 가이던스 가중치를 artefact 없이 사용할 수 있어 텍스트 정합을 크게 향상시키면서 FID를 해치지 않습니다.
대규모 스케일에서 StyleGAN-T는 대략 10억 매개변수에 도달하며 64개 A100 GPU에서 4주 예산으로 2.5억 이미지-텍스트 쌍에 대해 학습되었고, 적합한 하드웨어에서 이미지당 약 0.1초의 추론 속도를 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.