[논문 리뷰] A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
RECAP relabels training captions with a tuned image-to-text model to train text-to-image models on higher-quality captions, yielding substantial gains in image fidelity and semantic alignment.
Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model's capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.
연구 동기 및 목표
- 오픈 웹 데이터셋의 캡션 품질이 T2I 모델의 성능을 제한한다는 점을 제시한다.
- 자동 I2T 모델로 트레이닝 데이터를 재레이레이블링하는 파이프라인을 제안한다.
- 재캡션 데이터로 학습할 때 이미지 품질과 의미적 정렬이 개선됨을 입증한다.
제안 방법
- 소규모 인간 캡션 세트에서 PaLI를 미세조정하여 상세한 RECAP 캡션을 생성한다.
- RECAP Short, RECAP Long, RECAP Mix 캡션으로 LAION-2B-en의 1000만 이미지 재캡션을 수행한다.
- RECAP Short와 Long 캡션의 50/50 혼합(RECAP Mix)으로 재캡션된 데이터셋에서 Stable Diffusion v1.4를 미세조정한다.
- 자동화된 지표(FID, O-FID, SOA-C, SOA-I, CA, PA, RP)와 사람 평가를 사용하여 평가한다.
- Baseline(SD v1.4) 및 Alttext(원캡션) 모델과 비교한다.

실험 결과
연구 질문
- RQ1전문화된 캡션 모델로 재레이블링된 학습 캡션이 충실도와 의미 모두에서 T2I 모델 성능을 향상시키는가?
- RQ2짧은 캡션과 긴 캡션, 그리고 이들의 혼합이 이미지 품질과 의미적 정렬에 어떤 영향을 미치는가?
- RQ3캡션 품질이 학습-추론 편향 및 샘플 효율성에 미치는 영향은 무엇인가?
- RQ4어떤 모델 구성요소(UNet 대 CLIP 가중치)가 RECAP 캡션으로부터 가장 큰 이점을 얻는가?
주요 결과
| 모델 | FID | O-FID | SOA-C | SOA-I | CA | PA | RP |
|---|---|---|---|---|---|---|---|
| Baseline | 17.87 | 8.19 | 78.90 | 80.80 | 1.44 | 57.60 | 92.78 |
| Alttext | 17.53 | 8.90 | 78.99 | 80.85 | 1.47 | 57.40 | 91.32 |
| RECAP | 14.84 | 6.23 | 84.34 | 86.17 | 1.32 | 62.42 | 93.80 |
| Real Images | 2.62 | 0.00 | 90.02 | 91.19 | 1.05 | 100.0 | 83.54 |
- RECAP은 이미지 품질을 크게 향상시키고(FID 17.87→14.84), 의미적 충실도도 높인다(SOA-C 78.90→84.34, SOA-I 80.80→86.17).
- RECAP은 개수 산출 및 위치 정렬(CA 및 PA)을 개선하고 CLIP 기반 프롬프트 정렬(RP)을 더 높게 달성한다.
- 사람 평가에서 RECAP이 Baseline 대비 MS-COCO에서 성공적인 이미지 생성이 64.3%, DrawBench에서 41.7% 증가하는 것으로 나타났고 Alttext는 최소한의 이득을 보였다.
- RECAP Short와 Long 캡션의 혼합(RECAP Mix)은 가장 우수한 전체 성능을 제공하며, FID 이득과 의미적 개선을 함께 달성한다.
- RECAP Mix로 CLIP 및 UNet 가중치를 학습하면 두 가중치를 따로 학습하는 것보다 더 큰 의미적 이득을 얻는다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.