[论文解读] Gang of GANs: Generative Adversarial Networks with Maximum Margin Ranking
本文提出Gang of GANs(GoGAN),一种渐进式训练框架,通过在判别器中引入最大边缘排序损失,提升Wasserstein GAN的性能,从而改善生成器质量。该方法将真实数据与生成数据之间的分布差距至少减少一半,在CelebA、LSUN Bedroom、CIFAR-10以及一次样本人脸数据集上均达到最先进性能,通过图像补全指标得到验证。
Traditional generative adversarial networks (GAN) and many of its variants are trained by minimizing the KL or JS-divergence loss that measures how close the generated data distribution is from the true data distribution. A recent advance called the WGAN based on Wasserstein distance can improve on the KL and JS-divergence based GANs, and alleviate the gradient vanishing, instability, and mode collapse issues that are common in the GAN training. In this work, we aim at improving on the WGAN by first generalizing its discriminator loss to a margin-based one, which leads to a better discriminator, and in turn a better generator, and then carrying out a progressive training paradigm involving multiple GANs to contribute to the maximum margin ranking loss so that the GAN at later stages will improve upon early stages. We call this method Gang of GANs (GoGAN). We have shown theoretically that the proposed GoGAN can reduce the gap between the true data distribution and the generated data distribution by at least half in an optimally trained WGAN. We have also proposed a new way of measuring GAN quality which is based on image completion tasks. We have evaluated our method on four visual datasets: CelebA, LSUN Bedroom, CIFAR-10, and 50K-SSFF, and have seen both visual and quantitative improvement over baseline WGAN.
研究动机与目标
- 通过引入基于最大边缘的排序准则来增强判别器,以改进GAN,解决传统GAN与WGAN的局限性。
- 开发一种渐进式训练范式,使后续阶段的GAN通过共享的边缘基础损失来优化早期模型,从而提升整体生成器质量。
- 提供理论保证,证明在最优训练的WGAN条件下,GoGAN可将真实数据与生成数据之间的分布差距至少减少一半。
- 提出一种基于图像补全性能的新GAN质量评估指标,相较于标准指标更具实际意义。
提出的方法
- 将WGAN判别器损失推广为基于边缘的合页损失,促进特征空间中真实样本与生成样本之间的更大分离。
- 引入一种渐进式训练策略,多个GAN按顺序训练,后序模型通过共享的边缘排序机制从早期模型中受益。
- 采用多阶段训练过程,每个后续的GoGAN阶段均利用前一阶段生成器的输出来优化判别器的基于边缘的损失。
- 使用可学习或固定边缘的改进合页损失,强制真实样本与虚假样本之间具有更大的边缘间隔,提升判别器的鲁棒性。
- 所有实验均采用相同的DCGAN架构以保证一致性,训练周期超过1000轮,批量大小为64。
- 提出在25%与49%遮挡条件下的图像补全作为新评估协议,以评估生成器的保真度与泛化能力。
实验结果
研究问题
- RQ1基于边缘的判别器损失是否能超越WGAN,在泛化性与稳定性方面进一步提升GAN性能?
- RQ2一种结合多个GAN的渐进式训练范式是否能优于单阶段训练,带来更好的生成器表现?
- RQ3所提出的GoGAN框架是否能在理论上将真实数据与生成数据之间的分布差距至少减少一半?
- RQ4在遮挡条件下的图像补全是否比FID或Inception Score等标准指标更有效且更具意义,作为评估GAN质量的指标?
主要发现
- 在49%遮挡条件下,GoGAN在50K-SSFF数据集上达到25.71 PSNR与0.5963 SSIM,优于WGAN的21.24 PSNR与0.5725 SSIM。
- Stage-2 GoGAN在49%遮挡条件下实现0.7966 SSIM与25.71 PSNR,相较于Stage-1 GoGAN与WGAN均表现出持续改进。
- 在最优训练条件下,该方法理论上已将真实数据与生成数据之间的分布差距至少减少一半。
- 图像补全结果表明,GoGAN生成的图像在高遮挡条件下更具语义一致性和细节表现。
- 渐进式训练方案在所有数据集上均显著提升了SSIM与PSNR,证实了迭代优化的收益。
- 所提出的基于图像补全的评估方法揭示了生成器质量的更细微差异,凸显了GoGAN在结构与语义一致性方面的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。