QUICK REVIEW

[论文解读] Improving Text-to-Image Synthesis Using Contrastive Learning

Hui Ye, Xiulong Yang|arXiv (Cornell University)|Jul 6, 2021

Generative Adversarial Networks and Image Synthesis参考文献 44被引用 24

一句话总结

本文提出一种对比学习框架，通过在图像-文本匹配和 GAN 训练阶段增强语义一致性，提升文本到图像生成的质量。通过对同一图像的多种描述文本表示进行对齐，并最小化生成图像的分布方差，该方法在 COCO 数据集上将 FID 分数分别提升了 29.60%（相较于 AttnGAN）和 21.96%（相较于 DM-GAN），同时在多个数据集上提升了 IS 和 R-precision。

ABSTRACT

The goal of text-to-image synthesis is to generate a visually realistic image that matches a given text description. In practice, the captions annotated by humans for the same image have large variance in terms of contents and the choice of words. The linguistic discrepancy between the captions of the identical image leads to the synthetic images deviating from the ground truth. To address this issue, we propose a contrastive learning approach to improve the quality and enhance the semantic consistency of synthetic images. In the pretraining stage, we utilize the contrastive learning approach to learn the consistent textual representations for the captions corresponding to the same image. Furthermore, in the following stage of GAN training, we employ the contrastive learning method to enhance the consistency between the generated images from the captions related to the same image. We evaluate our approach over two popular text-to-image synthesis models, AttnGAN and DM-GAN, on datasets CUB and COCO, respectively. Experimental results have shown that our approach can effectively improve the quality of synthetic images in terms of three metrics: IS, FID and R-precision. Especially, on the challenging COCO dataset, our approach boosts the FID signifcantly by 29.60% over AttnGAN and by 21.96% over DM-GAN.

研究动机与目标

解决同一图像的人工标注描述中存在的语言变异性问题，该问题会降低图像生成质量。
通过学习多样描述下的鲁棒、不变的表示，提升文本到图像合成中的语义一致性。
通过在 GAN 训练过程中应用对比学习，提升生成图像的保真度和多样性。
使该方法与现有基于 GAN 的文本到图像模型（如 AttnGAN 和 DM-GAN）兼容。
在 CUB 和 COCO 数据集上，通过 IS、FID 和 R-precision 等多个指标，展示一致的性能提升。

提出的方法

使用对比损失预训练图像和文本编码器，以对齐描述同一图像的多个描述的嵌入表示。
对来自同一真实图像的语义相关描述所生成的虚假图像表示应用对比学习，使其相互靠近。
将对比损失整合到 GAN 训练流程中，以最小化同一图像的样本间方差，同时最大化不同图像之间的方差。
使用温度缩放的对比损失，并引入可学习超参数 λc 和 τ，以稳定训练并提升表示质量。
在 GAN 训练期间利用预训练的图像和文本编码器提取一致的特征，增强文本与生成图像特征之间的对齐。
将该方法泛化为可即插即用，无需修改架构即可与 AttnGAN 和 DM-GAN 等现有模型集成。

实验结果

研究问题

RQ1对比学习能否减轻描述中的语言变异性对文本到图像生成质量的影响？
RQ2在图像-文本对和生成图像对上联合应用对比学习，如何提升生成过程中的语义一致性？
RQ3与 AttnGAN 和 DM-GAN 等强基线相比，所提方法在 FID、IS 和 R-precision 上的提升程度如何？
RQ4性能对对比损失中的超参数 λc 和 τ 的敏感程度如何？
RQ5所提出的对比学习框架能否有效泛化并集成到现有的基于 GAN 的文本到图像生成模型中？

主要发现

在 COCO 数据集上，与 AttnGAN 相比，所提方法将 FID 降低了 29.60%；与 DM-GAN 相比，降低了 21.96%，显示出显著的性能提升。
在 CUB 数据集上，使用双阶段对比学习后，R-precision 提升了 2.25 个点；在 COCO 数据集上，提升了 1.58 个点。
在 CUB 数据集上，FID 从基线 DM-GAN 的 15.55 降低至 14.38，表明在各项指标上均实现一致改进。
超参数 λc 对 FID 的影响较小，最佳性能出现在 λc = 0.2（FID = 16.34）；τ 的影响较小但可测量，τ = 0.5 时 FID 最低。
在大多数设置下，IS 保持不变或略有提升，仅在 COCO 数据集上使用 DM-GAN 时 IS 下降 0.55 个点，表明多样性方面几乎没有权衡。
消融实验表明，图像-文本匹配阶段和 GAN 训练阶段的对比学习均必不可少，且每个阶段均带来逐步的性能增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。