Skip to main content
QUICK REVIEW

[论文解读] Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

Emily Denton, Soumith Chintala|arXiv (Cornell University)|Jun 18, 2015
Generative Adversarial Networks and Image Synthesis参考文献 28被引用 1,657
一句话总结

本文提出LAPGAN,一种基于拉普拉斯金字塔的条件生成对抗网络(GAN)级联架构,通过多尺度粗到细的生成方式,合成高质量的自然图像。通过在多个尺度上逐层生成并依赖前序结果进行条件控制,LAPGAN生成的样本显著优于基线GAN模型,在CIFAR-10数据集上的人类误判率高达40%,而标准GAN仅为10%。

ABSTRACT

In this paper we introduce a generative parametric model capable of producing high quality samples of natural images. Our approach uses a cascade of convolutional networks within a Laplacian pyramid framework to generate images in a coarse-to-fine fashion. At each level of the pyramid, a separate generative convnet model is trained using the Generative Adversarial Nets (GAN) approach (Goodfellow et al.). Samples drawn from our model are of significantly higher quality than alternate approaches. In a quantitative assessment by human evaluators, our CIFAR10 samples were mistaken for real images around 40% of the time, compared to 10% for samples drawn from a GAN baseline model. We also show samples from models trained on the higher resolution images of the LSUN scene dataset.

研究动机与目标

  • 开发一种可扩展的、高保真度的自然图像生成模型,以克服高维图像空间中全局生成建模的局限性。
  • 通过分层的粗到细生成过程,利用自然图像的多尺度结构,提升样本质量。
  • 实现在LSUN和CIFAR-10等复杂数据集上训练和采样深度生成模型,提升视觉保真度。
  • 证明在多尺度上运行的条件GAN可生成比标准GAN更逼真的样本。
  • 通过人类评估量化样本质量,显示本方法在真实感方面显著优于以往基于GAN的方法。

提出的方法

  • 模型使用拉普拉斯金字塔分解将图像划分为多个尺度:每一层包含一个低通残差层和一个带通细节层。
  • 在每一尺度上,训练一个独立的条件GAN,其中生成器根据前一级的低通图像生成高频细节。
  • 生成器网络接收一个随机噪声向量和一个粗糙图像作为输入,生成该尺度下的精细图像细节。
  • 每一层的判别器用于区分真实图像块与基于相同粗糙图像生成的图像块。
  • 采样过程首先生成低频残差图像,然后递归地使用对应生成器网络在每一层上逐步细化。
  • 对每一层使用Parzen窗口密度估计器估计对数似然,联合密度通过金字塔各层条件密度的乘积建模。

实验结果

研究问题

  • RQ1基于条件GAN的分层粗到细生成模型是否能生成比全局GAN更高质量的图像样本?
  • RQ2通过拉普拉斯金字塔在多尺度上建模图像结构,是否能提升样本的真实感与多样性?
  • RQ3该级联条件GAN在多大程度上能欺骗人类观察者,使其将生成图像误认为真实图像?
  • RQ4该模型在基准数据集上的性能与标准GAN及其他深度生成模型相比如何进行定量比较?
  • RQ5该模型能否泛化到更高分辨率的数据集(如LSUN),生成合理场景级别的图像?

主要发现

  • 人类评估者仅能正确识别60%的真实CIFAR-10图像为真实图像,表明人类感知阈值较高,逼真样本较为稀少。
  • LAPGAN生成的CIFAR-10样本有40%被误认为真实图像,显著优于标准GAN基线(仅10%误判率)。
  • 类条件LAPGAN变体实现了40%的人类误判率,表明其生成样本具有极强的真实感。
  • 来自LSUN数据集的样本(包括卧室、教堂和塔楼)在视觉上连贯且合理,表明其在更高分辨率和复杂场景中的可扩展性。
  • 该模型的分层结构支持通过深度卷积网络级联实现高效、自回归式采样,无需迭代优化。
  • 对数似然估计框架支持多尺度密度建模,完整似然通过各层条件密度的乘积计算。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。