Skip to main content
QUICK REVIEW

[논문 리뷰] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Chitwan Saharia, William Chan|arXiv (Cornell University)|2022. 05. 23.
Multimodal Machine Learning Applications인용 수 2,103
한 줄 요약

Imagen은 고정된 대형 언어 모델 인코더와 확산 모델을 활용하여 포토리얼리스틱한 텍스트-이미지 생성과 강한 이미지-텍스트 정렬을 달성하고, COCO와 DrawBench에서 기존 방법을 능가합니다. 또한 동적 임계값 설정 및 DrawBench를 평가에 도입합니다.

ABSTRACT

We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusion models in high-fidelity image generation. Our key discovery is that generic large language models (e.g. T5), pretrained on text-only corpora, are surprisingly effective at encoding text for image synthesis: increasing the size of the language model in Imagen boosts both sample fidelity and image-text alignment much more than increasing the size of the image diffusion model. Imagen achieves a new state-of-the-art FID score of 7.27 on the COCO dataset, without ever training on COCO, and human raters find Imagen samples to be on par with the COCO data itself in image-text alignment. To assess text-to-image models in greater depth, we introduce DrawBench, a comprehensive and challenging benchmark for text-to-image models. With DrawBench, we compare Imagen with recent methods including VQ-GAN+CLIP, Latent Diffusion Models, and DALL-E 2, and find that human raters prefer Imagen over other models in side-by-side comparisons, both in terms of sample quality and image-text alignment. See https://imagen.research.google/ for an overview of the results.

연구 동기 및 목표

  • 대형 텍스트 인코더를 고정하고 확장시키는 것이 확산 모델의 규모를 확장하는 것보다 텍스트-이미지 충실도와 정합성을 더 크게 향상시키는지 입증한다.
  • 텍스트-전용 데이터로 사전 학습된 대형 고정 언어 모델이 이미지 합성에 효과적인 텍스트 인코더가 될 수 있음을 보여준다.
  • 고충실도와 포토리얼리즘을 가능하게 하는 고가이드 가중치 확산과 샘플링/아키텍처 기법을 도입한다.
  • COCO를 넘어 텍스트-이미지 모델을 평가하기 위한 포괄적 벤치마크로 DrawBench를 제안한다.
  • 대규모 텍스트-생성 모델의 사회적 영향 및 데이터 사용의 윤리적 측면을 평가한다.

제안 방법

  • 입력 텍스트를 임베딩으로 매핑하기 위해 고정된 텍스트 인코더(T5 계열, BERT, CLIP 포함)를 사용하고 인코더 가중치는 고정된 채로 유지한다.
  • 텍스트 임베딩에 조건화된 기본 64x64 모델 다음으로 두 개의 상향해상도 확산 모델(64x64→256x256 및 256x256→1024x1024)을 순차적으로 적용하는 캐스케이드 확산 파이프라인을 활용한다.
  • Saturation을 방지하고 충실도를 향상시키기 위해 고가이드 가중치와 함께 분류기-프리 가이던스를 적용한다.
  • 메모리 효율성과 확산 모델의 수렴 속도를 높이기 위한 Efficient U-Net을 도입한다.
  • 아티팩트에 대한 강인성을 높이고 더 강한 텍스트 조건화를 가능하게 하기 위해 초상향 해상도 모델의 노이즈 컨디셔닝 증강을 도입한다.
  • COCO FID-30K와 CLIP 정렬 지표 및 대규모 인간 평가, DrawBench 벤치마크를 사용해 평가한다.

실험 결과

연구 질문

  • RQ1고정된 텍스트 인코더의 크기 확장이 텍스트-이미지 충실도와 이미지-텍스트 정합성의 향상에 확산 모델의 크기 확장보다 더 큰 이점을 주는가?
  • RQ2아주 큰 가이드 가중치를 동적 임계값 설정과 함께 확산 모델에 효과적으로 사용할 수 있어 포토리얼리즘을 개선하되 충실도 손실은 줄지 않는가?
  • RQ3대형 사전학습 언어 모델이 멀티모달 텍스트 인코더(CLIP 등)보다 텍스트-이미지 합성의 구동에 어떤 차이를 보이는가?
  • RQ4Efficient U-Net, 크로스-어텐션 텍스트 조건화 등 아키텍처 선택이 확산 기반 텍스트-이미지 생성에 어떤 영향을 미치는가?
  • RQ5DrawBench와 같은 포괄적 벤치마크가 COCO를 넘어 텍스트-이미지 모델의 강점과 약점을 어떻게 드러내는가?

주요 결과

모델FID-30K제로샷
AttnGAN35.49
DM-GAN32.64
DF-GAN21.42
DM-GAN + CL20.79
XMC-GAN9.33
LAFITE8.12
Make-A-Scene7.55
DALL-E17.89
LAFITE (CLIP+G)26.94
GLIDE12.24
DALL-E 210.39
Imagen (Our Work)7.27
  • 텍스트 인코더의 크기 확장이 이미지-텍스트 정합성과 이미지 충실도 모두에서 일관된 향상을 가져오며, T5-XXL이 최상의 결과를 달성한다.
  • 텍스트 인코더의 확장이 확산 모델의 크기 확장보다 더 큰 영향을 미친다.
  • 동적 임계값 설정과 큰 가이드 가중치를 함께 사용할 때 정적 또는 임계값이 없는 경우보다 포토리얼리즘과 정합성이 크게 향상된다.
  • 초상향 해상도 단계에서의 노이즈 컨디셔닝 증강은 강한 텍스트 조건화와 고품질 업샘플링에 매우 중요하다.
  • Imagen은 제로샷 COCO FID 7.27의 최첨단 성과를 달성하며, 보고된 결과에서 GLIDE 및 DALL-E 2를 능가하고 인간 평가자도 COCO 자막의 정합성과 일치한다.
  • DrawBench 평가에서 Imagen은 충실도와 이미지-텍스트 정합성 모두에서 경쟁 방법을 능가하며, 인간 평가자들이 카테고리 전반에 걸쳐 Imagen을 선호한다.
  • 대형 고정 언어 모델을 텍스트 인코더로 사용하는 것은 텍스트-이미지 생성에 효과적이며, 교차 어텐션 조건화가 단순 풀링 방법보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.