Skip to main content
QUICK REVIEW

[论文解读] Assessing Generative Models via Precision and Recall

Mehdi S. M. Sajjadi, Olivier Bachem|arXiv (Cornell University)|May 31, 2018
Generative Adversarial Networks and Image Synthesis被引用 173
一句话总结

引入一个面向分布的精确度与召回框架(PRD),用于评估生成模型,能够将样本质量与分布覆盖分离,并提供从样本高效计算的方法。

ABSTRACT

Recent advances in generative modeling have led to an increased interest in the study of statistical divergences as means of model comparison. Commonly used evaluation methods, such as the Frechet Inception Distance (FID), correlate well with the perceived quality of samples and are sensitive to mode dropping. However, these metrics are unable to distinguish between different failure cases since they only yield one-dimensional scores. We propose a novel definition of precision and recall for distributions which disentangles the divergence into two separate dimensions. The proposed notion is intuitive, retains desirable properties, and naturally leads to an efficient algorithm that can be used to evaluate generative models. We relate this notion to total variation as well as to recent evaluation metrics such as Inception Score and FID. To demonstrate the practical utility of the proposed approach we perform an empirical study on several variants of Generative Adversarial Networks and Variational Autoencoders. In an extensive set of experiments we show that the proposed metric is able to disentangle the quality of generated samples from the coverage of the target distribution.

研究动机与目标

  • 激发对能够区分样本质量与目标分布覆盖的评估指标的需求。
  • 定义一个理论上健全的分布精确度和召回的概念,能够分解散布差异。
  • 开发一个从样本计算PRD曲线的高效算法。
  • 将PRD与既有度量相关联,并在图像和文本数据上展示其实用性。
  • 使用PRD为GAN和VAE提供经验性见解,以诊断模式丢失和模式创新。

提出的方法

  • 将P和Q定义为有限空间上的分布,并分解为共享分量与非共享分量。
  • 引入以公用分量μ来捕捉共享结构的带权衡参数的PRD框架,并推导出正式的精度-召回集合PRD(Q,P)。
  • 证明PRD的基本性质,包括对偶性和单调性,并与总变差联系。
  • 提供一个通过alpha(lambda)和beta(lambda)之和以及lambda上的等角网格来计算PRD的算法。
  • 通过将样本嵌入特征空间(Inception Pool3)并聚类以简化为1D比较,将PRD应用于深度生成模型。
  • 展示在MNIST、Fashion-MNIST、CIFAR-10、CelebA以及文本数据上对PRD的计算与解释。

实验结果

研究问题

  • RQ1如何为分布定义精度和召回,以揭示生成模型的不同失败模式?
  • RQ2提议的PRD框架与现有度量如总变差、IS和FID有何关系?
  • RQ3PRD能否将GANs和VAE中的模式丢失与模式创新区分开?
  • RQ4PRD是否实用于从样本计算,并且在应用于图像和文本数据时有意义?
  • RQ5PRD在样本质量和多样性方面对GANs与VAE给出哪些经验观察?

主要发现

  • PRD提供一个二维视图,将样本质量(精确度)与分布覆盖(召回)分离。
  • PRD框架概括了总变差并与FID和Inception Score相关。
  • PRD曲线揭示GAN和VAE中的模式丢失与模式创新,阐明为何FID/IS可能不确定。
  • 实证结果显示VAE通常召回率较高但精确度较低,而GAN通常精确度较高但召回较低。
  • 该方法通过使用预训练分类器进行嵌入并在特征空间中聚类,在图像和文本数据上均适用。
  • PRD通过Fβ在精度与召回之间权衡,提供一系列摘要,帮助模型比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。