QUICK REVIEW

[논문 리뷰] Cross-Modal Contrastive Learning for Text-to-Image Generation

Han Zhang, Jing Yu Koh|arXiv (Cornell University)|2021. 01. 12.

Generative Adversarial Networks and Image Synthesis참고 문헌 61인용 수 34

한 줄 요약

XMC-GAN은 교차 모달 대조 손실(image-sentence, image-image, region-word)과 주의적 자기 조절 생성기, 대조 판별기를 도입하여 COCO, Localized Narratives, Open Images 데이터셋에서 텍스트-이미지 합성의 최첨단 성능을 달성합니다.

ABSTRACT

The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.

연구 동기 및 목표

텍스트-이미지 합성에서 작은 또는 단순한 장면을 넘어 높은 의미 충실도와 실제 사진 같은 품질을 달성한다.
교차 모달 대비 학습을 통해 이미지와 설명 텍스트를 한 단계 GAN으로 정렬한다.
상호 모달(이미지-텍스트, 실제-생성) 및 intra-modal(지역-단어) 대응을 모두 강제하여 전역 및 지역 충실도를 향상시킨다.
다양한 데이터셋(MS-COCO, Localized Narratives, Open Images)에서 인간 및 자동 평가를 통해 강력한 실증적 이득을 보여준다.

제안 방법

단일 단계의 주의적 자기 조절 생성기를 갖춘 XMC-GAN을 제안한다.
다중 대비 손실을 적용한다: 이미지-문장(전역 정렬), 이미지-이미지(공유 캡션을 가진 실제 및 생성 간), 이미지-지역-단어(주의를 통한 로컬 정렬) 손실.
대조 학습용 특징 인코더 역할을 하는 판별기를 사용하고 지역/전역 특징을 계산한다.
주의를 이용해 지역 특징을 단어 컨텍스트 벡터로 매핑하여 교차 모달 감독을 위한 지역-전역 컨텍스트 벡터를 생성한다.
생성 도중 지역 특징을 단어 컨텍스트 벡터로 조절하도록 주의적 자기 조절을 도입하여 지역 수준의 충실도를 향상시킨다.
모달 쌍에 공유 인코더를 두고 GAN 목표와 NT-Xent 대비 손실의 조합으로 학습한다.

실험 결과

연구 질문

RQ1교차 모달 대조 손실이 객체 수준의 감독 없이도 텍스트-이미지 합성의 현실성 및 텍스트 정렬을 동시에 개선할 수 있을까?
RQ2상호 모달(이미지-문장, 지역-단어) 및 intra-modal(이미지-이미지) 대비 손실이 전역 이미지 품질과 지역 수준의 충실도를 어떻게 상호 작용하여 향상시키는가?
RQ3주의적 자기 조절 생성기가 미세한 디테일을 더 잘 포착하고 길고 상세한 자막과의 정렬에 도움을 주는가?
RQ4MS-COCO를 넘어 LN-OpenImages 등 다양한 데이터셋에서 XMC-GAN의 성능은 이전 방법에 비해 어떤가?

주요 결과

모델	IS ↑	FID ↓	R-정밀도 ↑	SOA-C ↑	SOA-I ↑
Real Images	34.88	6.09	69.36	74.97	80.84
AttnGAN	23.61	33.10	-	25.88	39.01
Obj-GAN	24.09	36.52	-	27.14	41.24
DM-GAN	32.32	27.34	-	33.44	48.03
OP-GAN	27.88	24.70	49.80	35.85	50.47
SD-GAN	35.69	0	29.35	-	-
CP-GAN	52.73	0	55.82	77.02	84.55
XMC-GAN (ours)	30.45	9.33	71.00	50.94	71.33

XMC-GAN은 강력한 충실도와 정렬 향상을 달성하여 COCO-14 FID를 24.70에서 9.33로 감소시키고 Real Images의 FID가 6.09, R-정밀도 69.36으로 향상된 IS 30.45를 달성한다.
인간 평가에서 XMC-GAN이 현실성 면에서 비교의 77.3%, 이미지-텍스트 정렬에서 74.1%의 선호를 얻었다.
LN-COCO에서 XMC-GAN은 FID를 48.70에서 14.12로 개선하고 텍스트 정렬 지표에서 상당한 이득을 보인다.
LN-OpenImages에서 XMC-GAN은 IS 24.90, FID 26.91, R-정밀도 57.55를 달성하여 강력한 벤치마크를 확립한다.
변형 연구(Ablation)에서 상호 모달 손실(이미지-문장, region-단어)이 가장 큰 FID 개선을 제공하고, 네 가지 손실을 모두 결합하면 최상의 전체 성능을 달성한다.
주의적 자기 모듈레이션은 표준 자기 모듈레이션보다 성능이 크게 우수하며, 대조 손실은 지각 손실보다 생성 가이드에서 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.