[论文解读] Learning What and Where to Draw
GAWWN 学会在要绘什么以及在哪里绘画的条件下合成图像,从而实现带有边界框和关键点的文本与位置控制的图像生成。它通过在 GANs 中分解内容和位置,展示了 128×128 的鸟类图像和基于姿态的人体图像。
Generative Adversarial Networks (GANs) have recently demonstrated the capability to synthesize compelling real-world images, such as room interiors, album covers, manga, faces, birds, and flowers. While existing models can synthesize images based on global constraints such as a class label or caption, they do not provide control over pose or object location. We propose a new model, the Generative Adversarial What-Where Network (GAWWN), that synthesizes images given instructions describing what content to draw in which location. We show high-quality 128 x 128 image synthesis on the Caltech-UCSD Birds dataset, conditioned on both informal text descriptions and also object location. Our system exposes control over both the bounding box around the bird and its constituent parts. By modeling the conditional distributions over part locations, our system also enables conditioning on arbitrary subsets of parts (e.g. only the beak and tail), yielding an efficient interface for picking part locations. We also show preliminary results on the more challenging domain of text- and location-controllable synthesis of images of human actions on the MPII Human Pose dataset.
研究动机与目标
- 激发并开发一个可控的图像合成框架,将内容(what)与位置(where)分离。
- 利用局部化标注(边界框、关键点)来提升生成图像的真实感与可控性。
- 实现基于自然语言描述以及空间约束的鸟类与人类图像条件生成。
- 为在生成过程中指定部位位置和部分关键点约束提供友好的界面。
提出的方法
- 提出 Generative Adversarial What-Where Networks(GAWWN),使生成器和判别器均在文本和空间约束上进行条件化。
- 通过空间掩模和空间变换器实现边界框条件化,将文本特征变形为边界框。
- 通过将部位位置编码为多通道空间图并使用门控机制关注相关部位来实现关键点条件化。
- 扩展 GAWWN,使其从文本生成关键点和图像,使用基于开关的关键点条件框架。
- 使用条件 GAN 目标进行训练,结合预训练的图像和文本编码器,以及多字幕平均以实现稳健的文本条件化。
实验结果
研究问题
- RQ1在不正式化描述的文本条件下,GAN 是否能够生成高质量图像,同时尊重显式空间约束(边界框或关键点)?
- RQ2与仅边界框条件相比,对对象部位(关键点)进行条件化是否提高了真实感和可控性?
- RQ3模型是否能够从未见过的文本中生成一致的关键点和图像,降低对完整人工标注的需求?
- RQ4在质量和可控性方面,该方法从鸟类(CUB)转移到人类姿态(MPII)的效果如何?
主要发现
- 在文本和位置信息条件下的 128×128 鸟类图像比此前的 64×64 结果具有更高的真实感。
- 带有空间掩模的边界框条件化使在生成场景中对对象的位置和大小具有可控性。
- 关键点条件化可控对象的姿态以及对象的朝向,并可用于收缩、平移或拉伸对象。
- 从文本生成具有真实关键点和合成关键点的图像可维持视觉质量,并展示了用于指定部位的实用用户界面。
- 该方法在人体动作图像方面给出定性结果,输出可能更模糊但可识别,且通过姿态驱动的合成具备视频潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。