Skip to main content
QUICK REVIEW

[论文解读] Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts

Levent Karacan, Zeynep Akata|arXiv (Cornell University)|Dec 1, 2016
Generative Adversarial Networks and Image Synthesis参考文献 29被引用 117
一句话总结

本文提出 AL-CGAN,一种条件GAN,它从语义布局和瞬时属性生成户外场景,实现可控且多样的场景合成。

ABSTRACT

Automatic image synthesis research has been rapidly growing with deep networks getting more and more expressive. In the last couple of years, we have observed images of digits, indoor scenes, birds, chairs, etc. being automatically generated. The expressive power of image generators have also been enhanced by introducing several forms of conditioning variables such as object names, sentences, bounding box and key-point locations. In this work, we propose a novel deep conditional generative adversarial network architecture that takes its strength from the semantic layout and scene attributes integrated as conditioning variables. We show that our architecture is able to generate realistic outdoor scene images under different conditions, e.g. day-night, sunny-foggy, with clear object boundaries.

研究动机与目标

  • 在可控条件下推动自动化户外场景合成。
  • 开发一个模型,使用语义布局来决定对象边界和位置。
  • 结合瞬时场景属性以控制全局外观,如天气和时间等。
  • 证明将布局和属性条件结合能够产生更锐利、更多细节的图像。
  • 通过向布局中添加元素来演示增量场景编辑。

提出的方法

  • 提出 AL-CGAN,一种条件GAN,其中 G(z, s, a) 输入噪声 z、语义布局 s 和属性向量 a 以生成图像。
  • 使用一个Siamese判别器,处理带有条件布局和属性的真实/生成图像,并通过融合阶段将特征结合。
  • 在结合的 ADE20K 和 Transient Attributes 数据集上,使用小批量 SGD 与 Adam 优化器进行训练,输出图像尺寸为 128x128。
  • 将场景布局表示为 19 个不重叠的二值图,以及一个未标注图,并在空间位置上平铺属性。
  • 将 AL-CGAN 与场景标签条件GAN及消融研究进行比较,以显示添加布局和属性条件的好处。

实验结果

研究问题

  • RQ1GAN 是否能够在密集语义布局和瞬时属性条件下生成真实的户外场景?
  • RQ2将布局条件与瞬时属性相结合是否会提升真实感和边界清晰度?
  • RQ3改变潜在向量、布局和属性如何影响生成场景的多样性和可控性?
  • RQ4模型是否能够增量地向场景中添加元素来细化生成的图像?
  • RQ5学习到的表示是否能够泛化到训练中未见过的新布局?

主要发现

  • AL-CGAN 在语义布局区域内产生清晰的对象边界和逼真的颜色分布。
  • 改变瞬时属性可在固定布局中实现日夜、天气和照明的合理过渡。
  • 同时加入布局和属性条件比单独任一条件产生更丰富和更细致的图像。
  • 对粗略布局逐步增添场景元素可获得逐渐更详细且连贯的场景。
  • 最近邻分析表明生成的图像具有多样性,而非仅仅记忆化的训练样本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。