Skip to main content
QUICK REVIEW

[논문 리뷰] Cross-Modal Contrastive Learning for Text-to-Image Generation

Han Zhang, Jing Yu Koh|arXiv (Cornell University)|2021. 01. 12.
Generative Adversarial Networks and Image Synthesis참고 문헌 61인용 수 34
한 줄 요약

XMC-GAN은 교차 모달 대조 손실(image-sentence, image-image, region-word)과 주의적 자기 조절 생성기, 대조 판별기를 도입하여 COCO, Localized Narratives, Open Images 데이터셋에서 텍스트-이미지 합성의 최첨단 성능을 달성합니다.

ABSTRACT

The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.

연구 동기 및 목표

  • 텍스트-이미지 합성에서 작은 또는 단순한 장면을 넘어 높은 의미 충실도와 실제 사진 같은 품질을 달성한다.
  • 교차 모달 대비 학습을 통해 이미지와 설명 텍스트를 한 단계 GAN으로 정렬한다.
  • 상호 모달(이미지-텍스트, 실제-생성) 및 intra-modal(지역-단어) 대응을 모두 강제하여 전역 및 지역 충실도를 향상시킨다.
  • 다양한 데이터셋(MS-COCO, Localized Narratives, Open Images)에서 인간 및 자동 평가를 통해 강력한 실증적 이득을 보여준다.

제안 방법

  • 단일 단계의 주의적 자기 조절 생성기를 갖춘 XMC-GAN을 제안한다.
  • 다중 대비 손실을 적용한다: 이미지-문장(전역 정렬), 이미지-이미지(공유 캡션을 가진 실제 및 생성 간), 이미지-지역-단어(주의를 통한 로컬 정렬) 손실.
  • 대조 학습용 특징 인코더 역할을 하는 판별기를 사용하고 지역/전역 특징을 계산한다.
  • 주의를 이용해 지역 특징을 단어 컨텍스트 벡터로 매핑하여 교차 모달 감독을 위한 지역-전역 컨텍스트 벡터를 생성한다.
  • 생성 도중 지역 특징을 단어 컨텍스트 벡터로 조절하도록 주의적 자기 조절을 도입하여 지역 수준의 충실도를 향상시킨다.
  • 모달 쌍에 공유 인코더를 두고 GAN 목표와 NT-Xent 대비 손실의 조합으로 학습한다.

실험 결과

연구 질문

  • RQ1교차 모달 대조 손실이 객체 수준의 감독 없이도 텍스트-이미지 합성의 현실성 및 텍스트 정렬을 동시에 개선할 수 있을까?
  • RQ2상호 모달(이미지-문장, 지역-단어) 및 intra-modal(이미지-이미지) 대비 손실이 전역 이미지 품질과 지역 수준의 충실도를 어떻게 상호 작용하여 향상시키는가?
  • RQ3주의적 자기 조절 생성기가 미세한 디테일을 더 잘 포착하고 길고 상세한 자막과의 정렬에 도움을 주는가?
  • RQ4MS-COCO를 넘어 LN-OpenImages 등 다양한 데이터셋에서 XMC-GAN의 성능은 이전 방법에 비해 어떤가?

주요 결과

모델IS ↑FID ↓R-정밀도 ↑SOA-C ↑SOA-I ↑
Real Images34.886.0969.3674.9780.84
AttnGAN23.6133.10-25.8839.01
Obj-GAN24.0936.52-27.1441.24
DM-GAN32.3227.34-33.4448.03
OP-GAN27.8824.7049.8035.8550.47
SD-GAN35.69029.35--
CP-GAN52.73055.8277.0284.55
XMC-GAN (ours)30.459.3371.0050.9471.33
  • XMC-GAN은 강력한 충실도와 정렬 향상을 달성하여 COCO-14 FID를 24.70에서 9.33로 감소시키고 Real Images의 FID가 6.09, R-정밀도 69.36으로 향상된 IS 30.45를 달성한다.
  • 인간 평가에서 XMC-GAN이 현실성 면에서 비교의 77.3%, 이미지-텍스트 정렬에서 74.1%의 선호를 얻었다.
  • LN-COCO에서 XMC-GAN은 FID를 48.70에서 14.12로 개선하고 텍스트 정렬 지표에서 상당한 이득을 보인다.
  • LN-OpenImages에서 XMC-GAN은 IS 24.90, FID 26.91, R-정밀도 57.55를 달성하여 강력한 벤치마크를 확립한다.
  • 변형 연구(Ablation)에서 상호 모달 손실(이미지-문장, region-단어)이 가장 큰 FID 개선을 제공하고, 네 가지 손실을 모두 결합하면 최상의 전체 성능을 달성한다.
  • 주의적 자기 모듈레이션은 표준 자기 모듈레이션보다 성능이 크게 우수하며, 대조 손실은 지각 손실보다 생성 가이드에서 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.