Skip to main content
QUICK REVIEW

[논문 리뷰] TextDiffuser: Diffusion Models as Text Painters

Jingye Chen, Yupan Huang|arXiv (Cornell University)|2023. 05. 18.
Generative Adversarial Networks and Image Synthesis인용 수 15
한 줄 요약

TextDiffuser는 먼저 Transformer로 키워드 레이아웃을 예측하고, 텍스트 프롬프트와 생성된 레이아웃을 바탕으로 확산을 통해 이미지를 렌더링하는 두 단계 확산 프레임워크를 도입합니다; 또한 텍스트 렌더링 연구를 위해 MARIO-10M과 MARIO-Eval을 공개합니다.

ABSTRACT

Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.

연구 동기 및 목표

  • 확산 모델이 생성한 이미지 내에서 정확하고 일관된 텍스트 렌더링을 개선하려는 동기.
  • Transformer 기반 레이아웃 스테이지를 사용해 텍스트 레이아웃을 배경과 맞추는 제어 가능하고 유연한 파이프라인을 생성.
  • 프롬프트와 문자 수준 레이아웃 마스크 모두에 조건부인 확산 모델을 활용해 이미지에서 고품질의 텍스트를 생성.
  • 대규모 OCR 주석 데이터셋 MARIO-10M와 종합 평가 벤치마크 MARIO-Eval를 도입.
  • 실험과 사용자 연구를 통해 이 접근법이 텍스트 렌더링 품질에서 베이스라인보다 우수함을 보여준다.

제안 방법

  • Stage 1 (Layout Generation): 프롬프트에서 키워드 바운딩 박스를 예측하기 위해 CLIP 임베딩, 키워드/너비 임베딩, 위치 인코딩의 도움을 받는 Transformer 기반 인코더-디코더를 사용하고, ground-truth 박스에 대한 L1 손실로 학습하여 문자 수준의 분할 마스크를 얻는다.
  • Stage 2 (Image Generation): VAE를 통해 이미지를 잠재 공간으로 인코딩하고, 분할 마스크와 추가 특징 마스크로 잠재 확산 모델을 다운샘플링 및 조건화한다; 고품질 텍스트 영역을 향상시키기 위해 고정된 사전 학습 U-Net에 의해 안내되는 denoising 손실과 문자 인식 손실로 학습한다.
  • Inference: 편집 가능한 레이아웃으로 프롬프트에서 생성하거나, 미리 학습된 분할 마스크를 사용해 템플릿 이미지에서 시작하고 배경의 일관성을 유지하면서 텍스트 인페인팅으로 텍스트를 수정하거나 재구성한다.
  • Dataset and Benchmark: MARIO-10M (OCR 주석이 달린 10,061,720개 이미지-텍스트 쌍)과 MARIO-Eval (5,414 프롬프트 및 이미지-텍스트 쌍)을 제시해 텍스트 렌더링 품질을 평가한다.
  • Training Details: 확산 스테이지를 50 샘플링 스텝, classifier-free 가이던스, 8 GPUs에서 단일 에폭/2에폭 설정으로 학습; 입력 채널을 레이아웃-가이던 conditioning에 맞춰 4에서 17로 변경한다.

실험 결과

연구 질문

  • RQ1두 단계 확산 프레임워크가 명시적 텍스트 레이아웃 가이던스를 사용하여 이미지에서 읽기 가능한 텍스트와 배경과의 일관성을 모두 달성할 수 있는가?
  • RQ2문자 수준 분할 마스크와 문자 인식 손실을 도입하면 확산 모델의 다행일 텍스트 렌더링에 대한 활용성(affordance)이 개선되는가?
  • RQ3TextDiffuser가 기존 확산 기반 및 텍스트-인식 방법과 비교해 텍스트 렌더링 품질에서 어떻게 수행하는가?
  • RQ4대규모 OCR 주석 데이터셋(MARIO-10M)과 전용 MARIO-Eval 벤치마크가 확산 모델의 텍스트 렌더링에 대해 신뢰할 만한 평가를 제공하는가?
  • RQ5복잡한 텍스트 이미지(포스터, 책 표지 등)에서 텍스트 레이아웃 제어와 순수 프롬프트 기반 생성 간의 균형에서 어떤 트레이드오프가 있는가?

주요 결과

지표StableDiffusionControlNetDeepFloydTextDiffuser
FID51.29551.48534.90238.758
CLIPScore0.30150.34240.32670.3436
OCR(정확도)0.00030.23900.02620.5609
OCR(정밀도)0.01730.52110.14500.7846
OCR(재현율)0.02800.67070.22450.7802
OCR(F-지표)0.02140.58650.17620.7824
  • TextDiffuser는 비교 방법들 중에서 가장 좋은 CLIPScore를 달성하고 FID도 경쟁적이며 OCR 기반 지표를 크게 향상시킨다.
  • OCR 정확도 지표에서 TextDiffuser는 베이스라인을 크게 능가한다(예: 보고된 결과에서 Acc 최대 0.5609 및 F-measure 0.7824까지).
  • 문자 수준 분할 마스크는 텍스트 정확도와 배경과의 일관성을 현저히 향상시키는 명시적 지침을 제공한다.
  • 문자 인식 손실(lambda_char = 0.01)은 OCR 정확도가 최상으로 나타나 목표 지향적 가이던스의 가치를 보여준다.
  • 두 가지 분기 학습은 전체 이미지와 일부 이미지 생성을 균형 있게 이용해 텍스트 정확도와 검출/탑재 F-measures를 개선한다.
  • TextDiffuser는 OCR 관련 지표와 CLIPScore에서 Stable Diffusion, ControlNet, DeepFloyd를 능가하고 FID도 경쟁력 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.