[论文解读] Controllable Text-to-Image Generation
ControlGAN 引入了逐词级的通道级与空间注意力、逐词级判别器,以及感知损失,以实现受自然语言引导的属性特定位图像操作,在 CUB 与 COCO 上超过了现有方法。
In this paper, we propose a novel controllable text-to-image generative adversarial network (ControlGAN), which can effectively synthesise high-quality images and also control parts of the image generation according to natural language descriptions. To achieve this, we introduce a word-level spatial and channel-wise attention-driven generator that can disentangle different visual attributes, and allow the model to focus on generating and manipulating subregions corresponding to the most relevant words. Also, a word-level discriminator is proposed to provide fine-grained supervisory feedback by correlating words with image regions, facilitating training an effective generator which is able to manipulate specific visual attributes without affecting the generation of other content. Furthermore, perceptual loss is adopted to reduce the randomness involved in the image generation, and to encourage the generator to manipulate specific attributes required in the modified text. Extensive experiments on benchmark datasets demonstrate that our method outperforms existing state of the art, and is able to effectively manipulate synthetic images using natural language descriptions. Code is available at https://github.com/mrlibw/ControlGAN.
研究动机与目标
- 需要细粒度的可控文本到图像生成的动机。
- 提出一个框架,可以在不改变无关内容的情况下修改特定可视属性。
- 通过逐词与通道级注意力实现对视觉属性的解缠。
- 利用感知损失降低随机性并保留未修改的内容。
提出的方法
- 引入具有逐词级空间和通道级注意力的多阶段生成器,以实现对属性的解缠。
- 提出一个逐词级判别器,将单词与图像子区域关联,以实现对细粒度的反馈。
- 采用感知损失约束生成图像在语义上保持与未修改内容对齐。
- 在各阶段通过对抗、文本-图像相关性、感知和基于 DAMSM 的损失的组合进行训练。
- 在 CUB 与 COCO 上与 StackGAN++ 和 AttnGAN 进行对比,给出定量和定性分析。
实验结果
研究问题
- RQ1ControlGAN 是否能够在不改变不相关内容的前提下,依赖文本实现对特定视觉属性的分离与操作?
- RQ2通道级注意力是否提升了单词与图像通道之间的对齐,从而实现属性控制?
- RQ3逐词级判别器是否提供更细粒度的反馈,从而提升可控性和图像质量?
- RQ4感知损失对在文本引导的编辑中减少随机性与保留未修改内容有何影响?
主要发现
- ControlGAN 在 CUB 上的 Inception Score 和 R-precision 显著高于 StackGAN++ 和 AttnGAN。
- ControlGAN 在 COCO 上的 Inception Score 和 R-precision 具有竞争力,且重构误差通常更低。
- 在两个数据集上,L2 重构误差对 ControlGAN 最低,表明对未修改内容的保留更好。
- 定性结果显示可控的属性操作与修改后的文本一致,同时保留了其他内容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。