[论文解读] Cross-Modal Contrastive Learning for Text-to-Image Generation
XMC-GAN 引入跨模态对比损失(图像-句子、图像-图像、区域-词)与一个带注意自调制生成器和对比判别器,在 COCO、Localized Narratives 与 Open Images 数据集上实现了最先进的文本到图像合成。
The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.
研究动机与目标
- 在小而简单的场景之外,推动文本到图像合成的语义保真度和真实感。
- 开发一个单阶段 GAN,通过跨模态对比学习实现图像与描述性文本的对齐。
- 强制跨模态(图像-文本、真实与生成的对比)与同模态(区域-词)的对应,以提升全局与局部的保真度。
- 在人类和自动评估上,在多样数据集(MS-COCO、Localized Narratives、Open Images)上展示强大的经验提升。
提出的方法
- 提出带有单阶段注意力自调制生成器的 XMC-GAN。
- 应用多种对比损失:图像-句子(全局对齐)、图像-图像(具有共同字幕的真实与生成对比)、以及图像-区域到词的对齐(通过注意力实现局部对齐)。
- 使用一个判别器,同时作为对比学习的特征编码器来计算区域/全局特征。
- 通过注意力计算区域-词的对齐,生成跨模态监督所需的词到区域的上下文向量。
- 在生成过程中引入注意力自调制,通过词-上下文向量调制区域特征(提升区域层面的保真度)。
- 使用 GAN 目标与带共享编码器的 NT-Xent 对比损失相结合进行训练,以实现模态对的对齐。
实验结果
研究问题
- RQ1跨模态对比损失是否能在无对象级监督的情况下同时提升真实感和文本对齐?
- RQ2跨模态(图像-句子、区域-词)与同模态(图像-图像)对比损失如何相互作用以提升全局图像质量和区域层面的保真度?
- RQ3注意力自调制生成器是否更好地捕捉细粒度细节并与长篇/描述性字幕对齐?
- RQ4与先前方法相比,XMC-GAN 在多样数据集(如 LN-COCO、LN-OpenImages)上的表现如何?
主要发现
| 模型 | IS ↑ | FID ↓ | R-prec ↑ | SOA-C ↑ | SOA-I ↑ |
|---|---|---|---|---|---|
| Real Images | 34.88 | 6.09 | 69.36 | 74.97 | 80.84 |
| AttnGAN | 23.61 | 33.10 | - | 25.88 | 39.01 |
| Obj-GAN | 24.09 | 36.52 | - | 27.14 | 41.24 |
| DM-GAN | 32.32 | 27.34 | - | 33.44 | 48.03 |
| OP-GAN | 27.88 | 24.70 | 49.80 | 35.85 | 50.47 |
| SD-GAN | 35.69 | 0 | 29.35 | - | - |
| CP-GAN | 52.73 | 0 | 55.82 | 77.02 | 84.55 |
| XMC-GAN (ours) | 30.45 | 9.33 | 71.00 | 50.94 | 71.33 |
- XMC-GAN 在保真度与对齐方面实现显著提升,将 COCO-14 FID 从 24.70 降低到 9.33,并以 Real Images 的 FID 6.09 和 69.36 的 R-precision 基线达到 IS 30.45。
- 人工评估显示 XMC-GAN 在真实感方面的偏好占比为 77.3%,在图像-文本对齐方面为 74.1%。
- 在 LN-COCO 上,XMC-GAN 将 FID 从 48.70 提升至 14.12,并在文本对齐指标上显示显著增益。
- 在 LN-OpenImages 上,XMC-GAN 达到 IS 24.90、FID 26.91、R-precision 57.55,成为强有力的基线。
- 消融研究表明,跨模态损失(图像-句子与区域-词)提供最大的 FID 改善,结合所有四个损失后得到最佳总体性能。
- 注意力自调制显著优于标准自调制,且对比损失在引导生成方面优于感知损失。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。