[论文解读] MirrorGAN: Learning Text-to-image Generation by Redescription
MirrorGAN 引入了一种文本-图像-文本框架(STEM、GLAM、STREAM),具有全局-局部注意力和重建损失,以提高文本与生成图像之间的语义一致性,在 CUB 和 COCO 上达到最新效果。
Generating an image from a given text description has two goals: visual realism and semantic consistency. Although significant progress has been made in generating high-quality and visually realistic images using generative adversarial networks, guaranteeing semantic consistency between the text description and visual content remains very challenging. In this paper, we address this problem by proposing a novel global-local attentive and semantic-preserving text-to-image-to-text framework called MirrorGAN. MirrorGAN exploits the idea of learning text-to-image generation by redescription and consists of three modules: a semantic text embedding module (STEM), a global-local collaborative attentive module for cascaded image generation (GLAM), and a semantic text regeneration and alignment module (STREAM). STEM generates word- and sentence-level embeddings. GLAM has a cascaded architecture for generating target images from coarse to fine scales, leveraging both local word attention and global sentence attention to progressively enhance the diversity and semantic consistency of the generated images. STREAM seeks to regenerate the text description from the generated image, which semantically aligns with the given text description. Thorough experiments on two public benchmark datasets demonstrate the superiority of MirrorGAN over other representative state-of-the-art methods.
研究动机与目标
- 解决文本到图像生成中视觉真实感与语义一致性之间的差距。
- 通过强制图像再描述与输入文本对齐,利用双重正则化思想。
- 提出一个统一的 T2I–I2T 框架,以改善跨模态语义对齐。
- 在级联生成器中引入全局-局部协同注意力机制。
- 用基于交叉熵的文本语义重建损失对训练进行正则化。
提出的方法
- 引入 STEM,以获取词级和句子级文本嵌入,并进行条件增强。
- 将 GLAM 作为带有全局-局部注意力的级联多阶段生成器,在每个阶段结合 Attn_w(词级)和 Attn_s(句子级)。
- 结合 STREAM,从生成的图像再生成文本描述,并通过交叉熵损失对齐语义。
- 用两种对抗损失进行训练:视觉真实感和文本-图像成对的语义一致性,以及一个基于 CE 的文本语义重建损失(L_stream)。
- 跨阶段优化生成器,使目标函数等于各阶段损失之和加上 L_stream,而判别器学习区分真实/伪造图像以及语义一致性。
实验结果
研究问题
- RQ1文本到图像模型是否可以通过强制进行反向文本生成(I2T)来确保与输入描述的语义对齐而受益?
- RQ2全局-局部注意力级联是否能超越仅词级注意力,在语义一致性和多样性方面带来改进?
- RQ3跨模态重建损失是否在不牺牲图像真实感的情况下提升语义对齐?
- RQ4将 STREAM 与 GLAM 集成对标准 T2I 基准测试的影响如何?
- RQ5就 Inception Score 和 R-precision 来看,MirrorGAN 在 CUB 和 COCO 上相较于最先进方法的表现如何?
主要发现
| 模型 | CUB_Inception | COCO_Inception | CUB_R1 | CUB_R2 | CUB_R3 | COCO_R1 | COCO_R2 | COCO_R3 |
|---|---|---|---|---|---|---|---|---|
| GAN-INT-CLS | 2.88 ±0.04 | 7.88 ±0.07 | 53.31 | 54.11 | 54.36 | 72.13 | 73.21 | 76.53 |
| GAWWN | 3.62 ±0.07 | - | - | - | - | - | - | - |
| StackGAN | 3.70 ±0.04 | 8.45 ±0.03 | - | - | - | - | - | - |
| StackGAN++ | 3.82 ±0.06 | - | - | - | - | - | - | - |
| PPGN | - | 9.58 ±0.21 | - | - | - | - | - | - |
| AttnGAN | 4.36 ±0.03 | 25.89 ±0.47 | - | - | - | - | - | - |
| MirrorGAN | 4.56 ±0.05 | 26.47 ±0.41 | - | - | - | - | - | - |
| MirrorGAN (combined) | - | - | - | - | - | - | - | - |
- MirrorGAN 在 CUB 和 COCO 上的 Inception 分数均高于当前最先进方法(CUB:4.56;COCO:26.47)。
- MirrorGAN 在 R-precision 上超越 AttnGAN,在顶1/top2/top3 设置下均优(CUB:57.67/58.52/60.42;COCO:74.52/76.87/80.21)。
- 结合 STREAM 和 GLAM 在词注意力基线及以往方法之上获得显著提升,确立新的最先进结果。
- 消融研究显示增大损失权重 lambda 可同时提升 Inception Score 和 R-precision,其中 lambda=20 在 COCO 上表现强劲(Inception 26.47;R-precision 74.52)。
- 定性与人类感知研究表明,MirrorGAN 生成的图像在语义一致性和真实感方面优于 AttnGAN,与输入描述的对齐更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。