Skip to main content
QUICK REVIEW

[论文解读] LR-GAN: Layered Recursive Generative Adversarial Networks for Image Generation

Jianwei Yang, Anitha Kannan|arXiv (Cornell University)|Mar 5, 2017
Generative Adversarial Networks and Image Synthesis被引用 137
一句话总结

LR-GAN 通过递归地将前景对象与单独建模的外观、形状和姿态叠加在生成的背景上来生成图像,产生比 DCGAN 更自然、可识别的图像。它在 GAN 框架中引入前景-背景分层和空间变换。

ABSTRACT

We present LR-GAN: an adversarial image generation model which takes scene structure and context into account. Unlike previous generative adversarial networks (GANs), the proposed GAN learns to generate image background and foregrounds separately and recursively, and stitch the foregrounds on the background in a contextually relevant manner to produce a complete natural image. For each foreground, the model learns to generate its appearance, shape and pose. The whole model is unsupervised, and is trained in an end-to-end manner with gradient descent methods. The experiments demonstrate that LR-GAN can generate more natural images with objects that are more human recognizable than DCGAN.

研究动机与目标

  • 通过利用场景的分层结构(背景和前景对象)来推动自然图像的生成。
  • 提出一个在阶段中构建图像的递归 GAN,将前景层粘贴到生成的背景上。
  • 将每个对象分解为外观、形状(掩码)和姿态(仿射变换),以实现灵活的场景组合。
  • 端到端在无监督条件下训练模型,并在多个数据集上展示相对于 DCGAN 的改进。

提出的方法

  • 引入一个背景生成器 G_b 和一个在时间步之间共享参数的循环前景生成器 G_f。
  • 在每个时间步 t,生成对象的外观 f_t、形状 m_t 和姿态 a_t,通过空间变换器 ST 进行变换,并使用式(4)将它们与前一画布 x_{t-1} 进行组合。
  • 使用带 Sigmoid 输出的掩码 m_t 来获得 alpha 混合前景,并使用空间变换网格对 f_t 和 m_t 应用仿射变换。
  • 通过噪声 LSTM 和 past-object 池化机制将时间信息引入,以对先前内容进行条件化新对象。
  • 使用判别器 D 的对抗目标来区分真实与生成图像,以实现端到端的梯度优化。
  • 提出包括对抗性准确性和对抗性偏差等评估指标,作为除了 Inception Score 之外的评估。

实验结果

研究问题

  • RQ1一个分层的递归 GAN 是否能够通过明确建模背景和多个前景对象来生成更自然、可识别的图像?
  • RQ2将对象分解为外观、形状和姿态并应用仿射变换是否改善前景-背景分离和场景真实感?
  • RQ3显式的空间变换和掩码如何影响跨数据集的生成图像的质量和上下文相关性?
  • RQ4提出的指标(对抗性准确性和对抗性偏差)在评估真实与生成图像的分布相似性方面是否有效?
  • RQ5与 DCGAN 相比,LR-GAN 在 MNIST 变体、CIFAR-10 和 CUB-200 等数据集上的视觉保真度和人类主观评价表现如何?

主要发现

  • 在 CIFAR-10 和 CUB-200 上,LR-GAN 生成的图像具有更清晰的前景-背景边界,较少的混合伪影,相较于 DCGAN。
  • 定性分析和人类研究表明 LR-GAN 生成的对象更真实、可识别,例如在 CUB-200 上鸟类形状更锐利。
  • 在 CIFAR-10 的实验中,LR-GAN 在 Inception Score 的变体、对抗性准确性和对抗性偏差等指标上均优于 DCGAN。
  • 消融研究验证了仿射变换和掩码(形状)生成器的重要性,能够避免退化的分解并保持合理结果。
  • 上下文生成结果显示前景与固定背景的兼容性,表明在层之间学习了上下文依赖关系。
  • 特定类别的生成器提升了 CIFAR-10 中某些类别(如马、青蛙、猫)的真实感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。