Skip to main content
QUICK REVIEW

[论文解读] CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training

Jianmin Bao, Dong Chen|arXiv (Cornell University)|Mar 29, 2017
Generative Adversarial Networks and Image Synthesis参考文献 40被引用 61
一句话总结

CVAE-GAN 将变分自编码器与GAN结合,使用非对称平均特征匹配来稳定训练并在类别标签条件下生成多样化、细粒度的图像。

ABSTRACT

We present variational generative adversarial networks, a general learning framework that combines a variational auto-encoder with a generative adversarial network, for synthesizing images in fine-grained categories, such as faces of a specific person or objects in a category. Our approach models an image as a composition of label and latent attributes in a probabilistic model. By varying the fine-grained category label fed into the resulting generative model, we can generate images in a specific category with randomly drawn values on a latent attribute vector. Our approach has two novel aspects. First, we adopt a cross entropy loss for the discriminative and classifier network, but a mean discrepancy objective for the generative network. This kind of asymmetric loss function makes the GAN training more stable. Second, we adopt an encoder network to learn the relationship between the latent space and the real image space, and use pairwise feature matching to keep the structure of generated images. We experiment with natural images of faces, flowers, and birds, and demonstrate that the proposed models are capable of generating realistic and diverse samples with fine-grained category labels. We further show that our models can be applied to other tasks, such as image inpainting, super-resolution, and data augmentation for training better face recognition models.

研究动机与目标

  • 激发并开发一个生成模型,能够为特定类别(如身份、物种)生成高质量、细粒度的图像。
  • 利用非对称的训练目标来稳定GAN训练并缓解模态崩溃。
  • 通过编码器引入成对特征匹配,将潜在空间与图像空间联系起来,并保留结构与多样性。
  • 展示其在图像生成、修复、超分辨率以及用于识别任务的数据增强方面的应用潜力。

提出的方法

  • 提出四网络CVAE-GAN:编码器 E、生成器 G、判别器 D 和分类器 C。
  • 采用受CVAE启发的潜在建模,结合类别 c(P(z|x,c))的条件以及生成 P(x|z,c)。
  • 对生成器在 D 和 C 的特征层应用平均特征匹配损失以稳定训练(L_GD、L_GC)以及一个 L2 像素/特征重建损失(L_G)。
  • 引入带 KL 散度损失(L_KL)的编码器,将真实图像映射到潜在 z,以实现成对特征匹配(x -> z)和多样性。
  • 为 G 相对于 D/C 采用非对称目标:G 优化均值特征距离,而非经典的 GAN 损失,以改善梯度行为并减少模态崩溃。
  • 端到端训练,综合目标 L = L_D + L_C + λ1 L_KL + λ2 L_G + λ3 L_GD + λ4 L_GC。

实验结果

研究问题

  • RQ1CVAE-GAN 框架是否能够在特定类别标签条件下生成高质量、多样化的细粒度图像?
  • RQ2相对于传统 GAN,非对称均值特征匹配是否能稳定 GAN 训练并减少模态崩溃?
  • RQ3引入编码器和成对特征匹配是否能够在生成样本中保留对象身份和场景结构?
  • RQ4该模型能否有效应用于修复、变形以及用于识别系统的数据增强等相关任务?

主要发现

  • 生成的图像在细粒度类别(人脸、花卉、鸟类)内具有真实感和多样性,分辨率为 128x128。
  • CVAE-GAN 与 FM-CGAN 在定性和定量测试中实现了比 CVAE 与 CGAN基线更高的判别性和真实感。
  • 生成的人脸样本的 Top-1 分类准确率在 CVAE-GAN 中最高(97.78%),相比真实数据(99.61%)、CVAE(8.09%)、CGAN(61.97%)和 FM-CGAN(79.76%)。
  • CVAE-GAN 的真实感分数(越高越好,约为 19.03)接近真实数据真实感(20.85)并且优于 CGAN 和 FM-CGAN。
  • 均值特征匹配稳定了 GAN 训练并缓解模态崩溃,无需像在 WGAN 中的权重裁剪。
  • 编码器引导的潜在空间映射以及成对特征匹配在生成样本中保持对象结构与身份。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。