Skip to main content
QUICK REVIEW

[论文解读] Texture Synthesis with Spatial Generative Adversarial Networks

Nikolay Jetchev, Urs Bergmann|arXiv (Cornell University)|Nov 24, 2016
Generative Adversarial Networks and Image Synthesis参考文献 14被引用 108
一句话总结

本文提出 Spatial GAN (SGAN),一个全卷积 GAN,将空间噪声张量映射到大型纹理图像,实现高质量、可扩展、实时纹理合成,而无需全连接层

ABSTRACT

Generative adversarial networks (GANs) are a recent approach to train generative models of data, which have been shown to work particularly well on image data. In the current paper we introduce a new model for texture synthesis based on GAN learning. By extending the input noise distribution space from a single vector to a whole spatial tensor, we create an architecture with properties well suited to the task of texture synthesis, which we call spatial GAN (SGAN). To our knowledge, this is the first successful completely data-driven texture synthesis method based on GANs. Our method has the following features which make it a state of the art algorithm for texture synthesis: high image quality of the generated textures, very high scalability w.r.t. the output texture size, fast real-time forward generation, the ability to fuse multiple diverse source images in complex textures. To illustrate these capabilities we present multiple experiments with different classes of texture images and use cases. We also discuss some limitations of our method with respect to the types of texture images it can synthesize, and compare it to other neural techniques for texture generation.

研究动机与目标

  • 为大型、高质量纹理的现有纹理合成方法的局限性提供动机并提出解决方案。
  • 提出一种接受空间噪声张量以生成任意尺寸纹理的全卷积 GAN 架构。
  • 展示 SGAN 具备融合多源图像并生成无缝纹理的能力。
  • 在各种纹理类型和尺寸上评估生成速度和质量。
  • 讨论 SGAN 的局限性及对更广泛纹理相关任务的潜在扩展。

提出的方法

  • 将 DCGAN 扩展为一个空间结构生成器 G,将 R^{l x m x d} 的张量 Z 映射到 R^{h x w x 3} 的图像 X。
  • 判别器 D 输出在空间位置上的伪/真实概率的二维场,允许对所有补丁同时进行训练。
  • 使用标准 GAN 损失并使用 G=D(G(Z)) 技巧,对 G 和 D 进行在所有空间位置上求平均的联合目标 V(D,G) 进行训练。
  • 强制使用没有全连接层的全卷积架构,以实现任意输出尺寸。
  • 使用从训练纹理 I 中采样的补丁 X′ 作为真实数据,在训练稳定性需要时确保 h=w=补丁大小。
  • 分析投影场与感受野,将输入 Z 与输出像素相关联,并讨论对纹理属性的影响。

实验结果

研究问题

  • RQ1一个完全卷积的 GAN 是否能够通过对空间噪声张量进行条件化来学习并合成任意大小的纹理?
  • RQ2与 Gatys 等方法和非 GAN 方法相比,SGAN 在真实感、可扩展性和速度方面的表现如何?
  • RQ3将多个源纹理结合起来能带来哪些能力,SGAN 能否生成无缝纹理或复合纹理?
  • RQ4关于规则模式或超出其投影场的远程依赖,SGAN 存在的局限性是什么?
  • RQ5网络深度和感受野如何影响学到的纹理的质量和结构?

主要发现

  • SGAN 能在单次前向传播下实现高质量纹理的实时生成。
  • 由于其全卷积设计,SGAN 可以输出任意所需尺寸的纹理。
  • 增加 SGAN 深度(如 SGAN4、SGAN5、SGAN6)扩大投影场并改善结构,例如在卫星纹理中出现更长的街道式模式。
  • SGAN 能将多源图像融合成复合纹理,展示不同纹理的自然混合。
  • SGAN 的生成速度随图像尺寸呈次线性增长,在常见分辨率下相较 TextureNet 与 Gatys 等方法在报告的基准中具有更好表现。
  • 对于卫星纹理(巴塞罗那),SGAN 比 Gatys 等更好地保持方向性结构,可通过空间自相关分析得到证据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。