Skip to main content
QUICK REVIEW

[论文解读] An empirical study on evaluation metrics of generative adversarial networks

Qiantong Xu, Gao Huang|arXiv (Cornell University)|Jun 19, 2018
Generative Adversarial Networks and Image Synthesis参考文献 27被引用 221
一句话总结

本文通过实证分析流行的GAN评估指标,结果表明 kernel MMD 与 1-NN 两样本测试在学习到的特征空间中在判别性、模式敏感性和效率等关键属性上表现最好。它还评估了跨GAN模型的过拟合检测等实际方面。

ABSTRACT

Evaluating generative adversarial networks (GANs) is inherently challenging. In this paper, we revisit several representative sample-based evaluation metrics for GANs, and address the problem of how to evaluate the evaluation metrics. We start with a few necessary conditions for metrics to produce meaningful scores, such as distinguishing real from generated samples, identifying mode dropping and mode collapsing, and detecting overfitting. With a series of carefully designed experiments, we comprehensively investigate existing sample-based metrics and identify their strengths and limitations in practical settings. Based on these results, we observe that kernel Maximum Mean Discrepancy (MMD) and the 1-Nearest-Neighbor (1-NN) two-sample test seem to satisfy most of the desirable properties, provided that the distances between samples are computed in a suitable feature space. Our experiments also unveil interesting properties about the behavior of several popular GAN models, such as whether they are memorizing training samples, and how far they are from learning the target distribution.

研究动机与目标

  • 澄清GAN评估指标的理想属性(例如判别性、对模式丢失/崩溃的敏感性,以及过拟合检测)。
  • 系统地比较跨多样数据集的典型基于样本的指标,以识别其优势与局限。
  • 确定哪些指标为实际的GAN开发和模型选择提供可靠指导。

提出的方法

  • 回顾并对主要基于样本的GAN指标进行分类(Inception Score、Mode Score、Kernel MMD、Wasserstein、FID、1-NN 两样本检验)。
  • 在学习到的特征空间中使用预训练的 ResNet-34 来获得图像之间有意义的距离,从而操作指标。
  • 在 CelebA 和 LSUN-bedroom 上进行受控实验,以测试判别性、模式崩溃/丢失、对变换的鲁棒性、样本效率和过拟合。
  • 通过留出验证集评估指标对真实与伪造混合、模式操控和过拟合的敏感性。)

实验结果

研究问题

  • RQ1现有GAN评估指标的合理行为特征是什么?
  • RQ2在实际GAN评估中,这些指标的优点和局限性是什么?
  • RQ3哪些指标在区分真实与生成数据以及检测模式崩溃或过拟合等问题方面最可靠?

主要发现

  • kernel MMD 和在卷积特征空间中的 1-NN 两样本检验满足大多数理想属性,包括判别性和效率。
  • Inception Score(以及 Mode Score)在与 ImageNet 差异很大的数据集上可能误导,并且无法检测到过拟合。
  • Wasserstein 距离可能需要大量样本且计算量大,降低了其实用性。
  • Fréchet Inception Distance (FID) 通过在特征空间建模矩的方式,表现稳健且高效。
  • 特征空间的选择至关重要;卷积表示(基于 ResNet)在特征空间上比像素空间更能产生可靠的度量行为。
  • 1-NN 精度提供可解释的分数并强调对模式崩溃的认知;真实与伪造邻居揭示过拟合倾向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。