QUICK REVIEW

[논문 리뷰] Text-to-image Diffusion Models in Generative AI: A Survey

Chenshuang Zhang, Chaoning Zhang|arXiv (Cornell University)|2023. 03. 14.

Artificial Intelligence in Games인용 수 74

한 줄 요약

텍스트-투-이미지 확산 모델에 대한 포괄적 고찰로, 기초, 선구적 픽셀- 및 잠재 공간 접근법, 가이던스 기법, 개선점, 평가 및 이미지 생성을 넘어선 응용까지 다룬다.

ABSTRACT

This survey reviews the progress of diffusion models in generating images from text, ~ extit{i.e.} text-to-image diffusion models. As a self-contained work, this survey starts with a brief introduction of how diffusion models work for image synthesis, followed by the background for text-conditioned image synthesis. Based on that, we present an organized review of pioneering methods and their improvements on text-to-image generation. We further summarize applications beyond image generation, such as text-guided generation for various modalities like videos, and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.

연구 동기 및 목표

확률적 이미지 합성을 위한 확산 모델의 기초와 가이던스를 소개한다.
선구적인 텍스트-투-이미지 확산 프레임워크와 그들의 잠재 공간/픽셀 공간 전략을 검토한다.
더 나은 텍스트 정렬, 레이아웃 제어 및 검색 기반 방법을 가능하게 하는 개선점을 요약한다.
평가 지표, 윤리적 고려사항 및 이미지 생성을 넘어선 응용에 대해 논의한다.
확산 기반 T2I 시스템의 도전과 promising 미래 방향을 개요한다.

제안 방법

확산 모델과 핵심 방정식들(q(x_t|x_0) 및 E_t[λ(t)||ε−ε_θ(x_t,t)||^2] 등)을 포함한 순방향/역방향 디노이즈 과정 설명
분류기-없음 가이던스(classifier-free guidance) 및 CLIP 기반 또는 교차 모달 가이드링을 포함한 가이드링 방식 설명
픽셀 공간 vs 잠재 공간 확산 프레임워크를 구분하고 대표 모델(GLIDE, Imagen, Stable Diffusion, DALL-E 2)을 요약
공간 제어, 텍스트 역(Inversion), 검색 증강 확산, 확산 사전 등 강화 방법 논의
평가 지표(FID, CLIP 점수, IS, R-precision)와 인간 벤치마크, 그리고 윤리적 위험 평가를 개요

실험 결과

연구 질문

RQ1확산 모델로 텍스트 조건 이미지 합성을 가능하게 하는 핵심 메커니즘은 무엇인가?
RQ2픽셀 공간과 잠재 공간 확산 접근법은 충실도와 텍스트-이미지 정렬 측면에서 어떻게 비교되는가?
RQ3가이드링 및 조건화 기법 중 어떤 것이 텍스트-투-이미지 품질과 제어 가능성을 가장 크게 향상시키는가?
RQ4확산 기반 T2I 시스템에서 분포 외 프롬프트와 희귀 엔티티를 어떻게 해결할 수 있는가?
RQ5텍스트-투-이미지 확산 모델의 주요 윤리적 위험과 평가 전략은 무엇인가?

주요 결과

대표 모델의 MS-코코 예측에서 DALL-E 2가 10.39를 달성하고 Imagen은 7.27, GLIDE는 12.24를 달성했다.
잠재 공간 기반 Stable Diffusion은 텍스트 정렬이 강한 상태로 경쟁력 있는 충실도를 보인다(FID 12.63).
ERNIE-ViLG 2.0는 FID 6.75로 설문된 모델들 중 강력한 성능을 보인다.
검색 증강 방식(RDM, KNN-diffusion, Re-Imagen)은 분포 외 성능을 개선한다.
분류기-없음 가이던스는 여러 설정에서 CLIP 기반 방법에 비해 샘플 충실도와 텍스트-이미지 정렬을 일반적으로 향상시킨다.
교차 모달 가이드링과 대형 언어 모델은 확산 사전을 결합할 때 캡션 충실도와 장면 복잡성을 향상시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.