Skip to main content
QUICK REVIEW

[论文解读] Generating images with recurrent adversarial networks

Daniel Jiwoong Im, Chris Dongjoo Kim|arXiv (Cornell University)|Feb 16, 2016
Generative Adversarial Networks and Image Synthesis被引用 23
一句话总结

本文提出生成式循环对抗网络(GRAN),一种通过视觉画布的迭代、对抗性训练更新来合成高质量图像的循环生成模型。与粗到细或基于注意力的方法不同,GRAN端到端学习最优生成动态,在图像生成基准上实现最先进性能,并采用了一种新颖的对抗性评估指标。

ABSTRACT

Gatys et al. (2015) showed that optimizing pixels to match features in a convolutional network with respect reference image features is a way to render images of high visual quality. We show that unrolling this gradient-based optimization yields a recurrent computation that creates images by incrementally adding onto a visual "canvas". We propose a recurrent generative model inspired by this view, and show that it can be trained using adversarial training to generate very good image samples. We also propose a way to quantitatively compare adversarial networks by having the generators and discriminators of these networks compete against each other.

研究动机与目标

  • 开发一种循环生成模型,无需强制采用粗到细或基于注意力的结构,即可学习最优图像生成动态。
  • 通过将图像合成过程建模为类似神经风格迁移中特征匹配的可微分、迭代优化过程,提升图像生成质量。
  • 提出一种基于两种模型判别器与生成器之间交叉对战竞赛的新型定量评估框架。
  • 证明循环对抗网络可生成优于单步GAN和现有序列化模型的视觉样本。
  • 研究噪声注入策略对循环生成中样本多样性与训练稳定性的影响。

提出的方法

  • 该模型使用循环网络,基于从当前画布和参考图像中提取的特征,逐像素生成修正,以迭代方式更新潜在画布。
  • 将图像生成建模为Gatys等人(2015)提出的基于梯度的优化过程的展开,其中生成器对画布执行可微分的循环更新。
  • 生成器与判别器通过最小-最大对抗目标进行训练,判别器负责区分真实图像与生成图像。
  • 提出一种新颖的评估指标:两个模型在‘对战’中进行竞赛,其判别器与生成器相互对抗,以判断哪个生成器产生的样本更逼真。
  • 在训练开始时或每一步时间步注入噪声,以探索其对样本多样性与训练稳定性的效果。
  • 通过时间反向传播端到端训练该架构,每个时间步使用相同模块,使网络能够学习最优生成序列。

实验结果

研究问题

  • RQ1循环对抗网络是否能在不强制采用粗到细或基于注意力结构的前提下,学习生成高质量图像?
  • RQ2与单步GAN相比,对视觉画布进行迭代、循环优化在图像质量和多样性方面表现如何?
  • RQ3基于交叉对战竞赛的新型对抗性评估指标能否可靠地对生成模型进行排序?
  • RQ4在每个时间步注入不同噪声向量与仅在初始时注入一次噪声相比,对样本质量与训练稳定性有何影响?
  • RQ5该模型是否表现出过拟合行为?若存在,其是否表现为对训练样本的插值而非记忆?

主要发现

  • GRAN在生成高质量、多样化图像方面优于单步GAN和现有序列化模型,该结果通过所提出的对抗性评估指标得到验证。
  • 模型随时间推移生成的图像细节愈发丰富,中间步骤显示出纹理与结构的渐进式优化,即使未显式引入注意力机制或粗到细设计。
  • 在每个时间步注入不同噪声向量可带来更动态的中间更新和更大的视觉差异,但会增加训练难度并可能引发模式崩溃。
  • 在使用交叉对战指标评估时,GRAN5在与GRAN9的对战中获得测试得分1.09和样本得分1.07,表明其性能更优。
  • 模型表现出与训练样本插值一致的行为,而非记忆,表明其具备一种不同于典型生成模型过拟合的泛化形式。
  • 具有7或9个时间步的GRAN生成的图像与5步模型视觉上相似,但7步变体在评估对战中获胜,表明在新指标下更长的生成序列可提升真实感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。