QUICK REVIEW

[论文解读] Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network

Zizhao Zhang, Yuanpu Xie|arXiv (Cornell University)|Feb 26, 2018

Generative Adversarial Networks and Image Synthesis参考文献 44被引用 52

一句话总结

HDGAN 在多个生成器尺度处引入分层嵌套判别器，以在文本条件下生成高分辨率、语义一致的摄影图像。它在各数据集和指标上改进了最先进水平，并引入了一种新的视觉-语义相似性评估。

ABSTRACT

This paper presents a novel method to deal with the challenging task of generating photographic images conditioned on semantic image descriptions. Our method introduces accompanying hierarchical-nested adversarial objectives inside the network hierarchies, which regularize mid-level representations and assist generator training to capture the complex image statistics. We present an extensile single-stream generator architecture to better adapt the jointed discriminators and push generated images up to high resolutions. We adopt a multi-purpose adversarial loss to encourage more effective image and text information usage in order to improve the semantic consistency and image fidelity simultaneously. Furthermore, we introduce a new visual-semantic similarity measure to evaluate the semantic consistency of generated images. With extensive experimental validation on three public datasets, our method significantly improves previous state of the arts on all datasets over different evaluation metrics.

研究动机与目标

应对在描述性文本条件下生成高分辨率、真实感强的图像的挑战。
使用分层对抗约束对中间层生成器表示进行正则化。
实现单流生成器在端到端训练下配合多尺度判别器。
通过多用途对抗损失提升语义一致性和图像保真度。
引入视觉-语义相似性度量来评估文本与生成图像之间的一致性。

提出的方法

使用单流生成器输出一个带有在多分辨率处的侧输出的图像金字塔。
在每个侧输出上附加一个独特的判别器，以在相应尺度上强制区分真实/伪造以及图像-文本对。
采用分层嵌套的对抗目标来正则化中间表示并稳定训练。
采用匹配感知的成对损失以实现全局语义一致性，以及在每个尺度上的局部对抗损失以提升局部保真度。
结合带有随机文本嵌入的条件增强以及KL正则化来丰富条件信息。
使用同时包含图像-文本对损失和跨尺度局部图像损失的多项损失进行训练。

实验结果

研究问题

RQ1分层、多尺度对抗监督如何提升高分辨率文本到图像合成？
RQ2在生成器的多个层次同时引入局部与全局对抗信号是否能带来更好的语义保真度和视觉质量？
RQ3在无需多阶段级联或额外监督的情况下，单流生成器能否实现高分辨率、语义一致的结果？
RQ4引入视觉-语义相似性度量在评估文本与图像对齐方面超越传统GAN指标的作用如何？

主要发现

HDGAN 在 CUB、Oxford-102 和 COCO 上实现比若干基线更高的 Inception 分数（例如在 CUB 为 4.15 ± 0.05，在 Oxford-102 为 3.45 ± 0.07，在 COCO 为 11.86 ± 0.18）。
分层嵌套判别器提升了性能；在 64×64、128×128 和 256×256 尺度处的判别器比比较少尺度时得到更强的结果。
局部图像损失和多尺度多损失框架提高了视觉-语义一致性并生成更详细的结构（如花瓣和鸟姿势）。
HDGAN 在多个指标上优于 StackGAN 和 TAC-GAN，包括视觉-语义相似性（VS）和 MS-SSIM，并且样本多样性更好。
一种新的视觉-语义相似性度量与生成图像与所条件文本之间的语义对齐相关性相关，超过某些基线。
HDGAN 通过句子插值展示了有效的风格迁移，表明潜在空间语义的平滑性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。