Skip to main content
QUICK REVIEW

[论文解读] Dual Discriminator Generative Adversarial Nets

Tu Dinh Nguyen, Trung Le|arXiv (Cornell University)|Sep 12, 2017
Generative Adversarial Networks and Image Synthesis参考文献 21被引用 122
一句话总结

D2GAN 在 GAN 框架中引入两个判别器,联合最小化 KL 和反向 KL 散度,缓解模态崩溃并实现对像 ImageNet 这样大规模数据集的可扩展生成。

ABSTRACT

We propose in this paper a novel approach to tackle the problem of mode collapse encountered in generative adversarial network (GAN). Our idea is intuitive but proven to be very effective, especially in addressing some key limitations of GAN. In essence, it combines the Kullback-Leibler (KL) and reverse KL divergences into a unified objective function, thus it exploits the complementary statistical properties from these divergences to effectively diversify the estimated density in capturing multi-modes. We term our method dual discriminator generative adversarial nets (D2GAN) which, unlike GAN, has two discriminators; and together with a generator, it also has the analogy of a minimax game, wherein a discriminator rewards high scores for samples from data distribution whilst another discriminator, conversely, favoring data from the generator, and the generator produces data to fool both two discriminators. We develop theoretical analysis to show that, given the maximal discriminators, optimizing the generator of D2GAN reduces to minimizing both KL and reverse KL divergences between data distribution and the distribution induced from the data generated by the generator, hence effectively avoiding the mode collapsing problem. We conduct extensive experiments on synthetic and real-world large-scale datasets (MNIST, CIFAR-10, STL-10, ImageNet), where we have made our best effort to compare our D2GAN with the latest state-of-the-art GAN's variants in comprehensive qualitative and quantitative evaluations. The experimental results demonstrate the competitive and superior performance of our approach in generating good quality and diverse samples over baselines, and the capability of our method to scale up to ImageNet database.

研究动机与目标

  • 通过利用互补的 KL 散度性质来激励并解决 GAN 中的模态崩溃问题。
  • 提出一个三方博弈的 GAN 框架(两个判别器+一个生成器)以使生成数据多样化。
  • 提供理论分析,证明收敛于同时最小化 KL 散度及反向 KL 散度。
  • 展示对包含 ImageNet 的大规模数据集的可扩展性,且具备有竞争力的质量和多样性。

提出的方法

  • 在一个三方极小极大博弈中,引入两个具有不同目标的判别器 D1 和 D2,以及一个生成器 G。
  • 判别器输出为正实数;优化目标含有超参数 alpha 和 beta,用以平衡 KL 与反向 KL 的效应。
  • 给定 G 推导最优判别器,表明 D1* 和 D2* 取决于 p_data 和 p_G。
  • 证明在纳什均衡时,生成器同时最小化 KL 与反向 KL 散度,达到 p_G = p_data。
  • 通过 alpha、beta 及类似于 GAN 的交替更新的训练过程提供稳定性。
  • 在合成数据和大规模数据集(MNIST、CIFAR-10、STL-10、ImageNet)上,使用标准架构进行实验评估。

实验结果

研究问题

  • RQ1双判别器 GAN 是否能够在不牺牲对大规模数据集的可扩展性的前提下防止模态崩溃?
  • RQ2联合优化 KL 与反向 KL 散度如何影响生成样本的多样性与质量?
  • RQ3在 D2GAN 中,生成器恢复数据分布的理论条件是什么?
  • RQ4在多样化的基准和指标上,D2GAN 如何与最先进的 GAN 变体相比?
  • RQ5D2GAN 是否可扩展到 ImageNet,并且能够生成多样化且高质量的图像?

主要发现

  • 在固定 G 的条件下,最优判别器为 D1* = alpha p_data / p_G 且 D2* = beta p_G / p_data。
  • 在最优判别器下的纳什均衡时,J(G*,D1*,D2*) 等于 alpha(log alpha−1) + beta(log beta−1),且 p_G = p_data。
  • 生成器目标包含 alpha KL 与 beta 反向 KL 散度,能够在模态覆盖与模态质量之间取得平衡。
  • 在 MNIST、CIFAR-10、STL-10 以及 ImageNet 的实证结果显示多样性提升且质量具有竞争力,同时实现了对 ImageNet 的可扩展性。
  • 在一个合成的二维多模态数据集上,D2GAN 的模态覆盖更好,且对称 KL 与 Wasserstein 距离低于 GAN 与 UnrolledGAN。
  • 表1报告模态覆盖与 KL 发散,其中 D2GAN 覆盖 1000 个模态,D_KL(model||data) = 0.08 ± 0.01,优于基线。
  • 表2显示 CIFAR-10 的 Inception 分数,其中 D2GAN 达到 7.15 ± 0.07,在无监督基线中具有竞争力的排名。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。