[论文解读] Towards GAN Benchmarks Which Require Generalization
这篇论文认为常见的 GAN 评估指标可以通过记忆化来作弊,并提出神经网络发散度(NNDs)作为基于样本的基准,要求真正的泛化;它展示了一个基于 CNN 的发散度,惩罚记忆化并与感知质量相关。
For many evaluation metrics commonly used as benchmarks for unconditional image generation, trivially memorizing the training set attains a better score than models which are considered state-of-the-art; we consider this problematic. We clarify a necessary condition for an evaluation metric not to behave this way: estimating the function must require a large sample from the model. In search of such a metric, we turn to neural network divergences (NNDs), which are defined in terms of a neural network trained to distinguish between distributions. The resulting benchmarks cannot be "won" by training set memorization, while still being perceptually correlated and computable only from samples. We survey past work on using NNDs for evaluation and implement an example black-box metric based on these ideas. Through experimental validation we show that it can effectively measure diversity, sample quality, and generalization.
研究动机与目标
- 定义一个有意义的、基于样本的、无条件图像生成基准,要求超越记忆化的泛化。
- 阐明评估指标应如何激励泛化,而非对训练集记忆的强化。
- 研究神经网络发散度(NNDs)作为此类基准,并评估其性质。
提出的方法
- 将评估指标框架化为从有限样本估计的分布之间的发散度。
- 提出一个基线,其中模型必须在训练集记忆上超越(定义1)。
- 引入 CNN 发散度(D_CNN)作为一种实用的 NND,使用 CNN 评论家和 WGAN-GP 目标,以及用于评估泛化的实验协议。
- 评估在跨指标(见表2)中,需要多少训练样本才能让记忆超过 GAN。
- 在 CIFAR-10 上将 D_CNN 与 Inception Score (IS) 和 Fréchet Inception Distance (FID) 进行比较。
实验结果
研究问题
- RQ1是否可以设计一个基于样本的指标,使记忆化不能轻易击败模型,从而强制达到泛化?
- RQ2神经网络发散度是否能有效区分记忆化与 GANs 的真正泛化?
- RQ3在与样本多样性和质量的相关性方面,感知对齐的 NND(如基于 CNN 的)与 IS 和 FID 的比较如何?
主要发现
- IS 和 FID 可能偏向于记忆化而非学习到的泛化,而 CNN 发散度更倾向于泛化到训练集之外的模型。
- 在所示实验中,CNN 发散度比 IS/FID 更有效地检测过拟合并衡量多样性。
- 在 CIFAR-10 上,使用 WGAN-GP 设置训练的 CNN 发散度在测试样本上用 D_CNN 评估时可以超越记忆化(并且与更广泛的泛化相关)。
- 提高 critic 所需的样本量会提高记忆化击败模型的阈值,表明对多样性的敏感性。
- CNN 发散度在训练过程中下降,揭示训练与测试发散度之间的差距,强调在评估中泛化的重要性。
- 小型测试集带来的偏差可能影响估计,但在较大与较小测试集之间的趋势仍然相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。