Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

Jiahui Yu, Yuanzhong Xu|arXiv (Cornell University)|2022. 06. 22.
Generative Adversarial Networks and Image Synthesis인용 수 340
한 줄 요약

이 논문은 20B 매개변수까지 확장 가능한 Pathways 자동회귀 텍스트-이미지 모델 Parti를 제시하며, Transformer 기반 이미지 토크나이저(ViT-VQGAN)와 인코더-디코더 아키텍처를 사용해 MS-COCO 및 Localized Narratives에서 최고의 제로샷 및 미세조정 FID를 달성하고 새로운 오픈 도메인 평가 벤치마크(PartiPrompts)를 도입한다.

ABSTRACT

We present the Pathways Autoregressive Text-to-Image (Parti) model, which generates high-fidelity photorealistic images and supports content-rich synthesis involving complex compositions and world knowledge. Parti treats text-to-image generation as a sequence-to-sequence modeling problem, akin to machine translation, with sequences of image tokens as the target outputs rather than text tokens in another language. This strategy can naturally tap into the rich body of prior work on large language models, which have seen continued advances in capabilities and performance through scaling data and model sizes. Our approach is simple: First, Parti uses a Transformer-based image tokenizer, ViT-VQGAN, to encode images as sequences of discrete tokens. Second, we achieve consistent quality improvements by scaling the encoder-decoder Transformer model up to 20B parameters, with a new state-of-the-art zero-shot FID score of 7.23 and finetuned FID score of 3.22 on MS-COCO. Our detailed analysis on Localized Narratives as well as PartiPrompts (P2), a new holistic benchmark of over 1600 English prompts, demonstrate the effectiveness of Parti across a wide variety of categories and difficulty aspects. We also explore and highlight limitations of our models in order to define and exemplify key areas of focus for further improvements. See https://parti.research.google/ for high-resolution images.

연구 동기 및 목표

  • 자동회귀 텍스트-이미지 모델을 20B 매개변수로 확장하고 오픈 도메인 프롬프트에서 평가한다.
  • 제로샷 및 미세조정 설정에서 최첨단 이미지 품질과 텍스트-이미지 정합성을 입증한다.
  • Comprehensive benchmarks (PartiPrompts)와 모델 한계 분석을 도입해 향후 연구를 위한 가이드를 제공한다.

제안 방법

  • 텍스트-이미지 생성을 Transformer 기반 ViT-VQGAN 토크나이저에 의해 생성된 이미지 토큰으로 시퀀스-투-시퀀스 학습으로 취급한다.
  • 텍스트 토큰 시퀀스를 이미지 토큰 시퀀스로 맵핑하기 위해 엔코더-디코더 트랜스포머를 학습하고, 이미지 토큰은 ViT-VQGAN으로 픽셀로 디코딩된다.
  • 텍스트 인코더를 대규모 언어 데이터에서 사전학습하고 텍스트-이미지 생성에 대해 공동 미세조정한다.
  • 샘플 품질과 이미지-텍스트 정합성을 향상시키기 위해 분류기 없는 가이던스와 대조적 재정렬(CoCa)을 적용한다.
  • 대규모 모델용 4x 인코더/디코더 설계와 함께 CloudTPUv4에서 GSPMD를 이용한 분산 학습(레이어 내 모델 병렬성 및 데이터 병렬성 포함)을 적용한다.
  • 선택적으로 이미지 토크나이저 위에 초고해상도 모듈을 추가하여 더 높은 해상도 출력을 생성한다.

실험 결과

연구 질문

  • RQ120B 매개변수로 확장된 제로샷 및 일반 텍스트-이미지 모델이 표준 및 장문 설명에서 기존 벤치마크를 능가할 수 있는가?
  • RQ2ViT-VQGAN 이미지 토크나이저가 대규모에서 재구성 품질과 코드북 사용에 어떤 영향을 미치는가?
  • RQ3텍스트 인코더의 사전학습이 다운스트림 텍스트-이미지 생성 성능에 미치는 영향은 무엇인가?
  • RQ4분류기 없는 가이드와 재정렬이 Parti 대형 모델에서 텍스트-이미지 정합성과 샘플 다양성을 개선하는가?
  • RQ5오픈 도메인 프롬프트와 더 긴 설명이 MS-COCO 스타일 자막을 넘어 Parti에 일반화되는가?

주요 결과

  • 20B Parti 모델은 MS-COCO에서 제로샷 FID 7.23 및 미세조정 FID 3.22를 달성한다.
  • Parti는 Localized Narratives에서 제로샷 FID 15.97 및 미세조정 FID 8.39를 달성한다.
  • 매개변수를 20B까지 확장하면 데이터 세트 간 텍스트-이미지 정합성 및 이미지 충실도에서 일관된 이점을 얻을 수 있다.
  • PartiPrompts(P2)는 12개 범주와 11개 도전 요소를 아우르는 총 1600 프롬프트 벤치마크를 제공하여 오픈 도메인 생성을 평가한다.
  • 분류기 없는 가이드와 대조적 재정렬은 보완적이며 샘플 품질과 정합성을 향상시킨다.
  • 이 접근 방식은 더 길고 상세한 프롬프트에 대한 제로샷 일반화가 강력하며 콘텐츠가 풍부한 합성을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.