[论文解读] Are GANs Created Equal? A Large-Scale Study
该论文进行大规模、中立的最先进GAN比较,显示在足够的超参数调优下,许多模型表现类似,并提出基于精确度/召回的评估数据集以补充FID。
Generative adversarial networks (GAN) are a powerful subclass of generative models. Despite a very rich research activity leading to numerous interesting GAN algorithms, it is still very hard to assess which algorithm(s) perform better than others. We conduct a neutral, multi-faceted large-scale empirical study on state-of-the art models and evaluation measures. We find that most models can reach similar scores with enough hyperparameter optimization and random restarts. This suggests that improvements can arise from a higher computational budget and tuning more than fundamental algorithmic changes. To overcome some limitations of the current metrics, we also propose several data sets on which precision and recall can be computed. Our experimental results suggest that future GAN research should be based on more systematic and objective evaluation procedures. Finally, we did not find evidence that any of the tested algorithms consistently outperforms the non-saturating GAN introduced in \cite{goodfellow2014generative}.
研究动机与目标
- 在实际计算预算下,推动对GAN变体进行公平、中立的比较。
- 评估超参数、种子和数据集如何影响报告的GAN性能。
- 评估当前度量(FID和IS)在GAN上的鲁棒性和局限性。
- 提出在受控数据流形上基于精确度/召回的评估,以补充FID。
提出的方法
- 使用统一架构和标准化训练设置比较无条件GAN。
- 进行大规模超参数搜索(先广泛后收窄),评估在不同模型和数据集上的敏感性。
- 使用Fréchet Inception Distance (FID)及推导的精确度/召回指标进行评估。
- 分析偏差、方差和模式坍缩对FID在不同数据集上的影响。
- 开源实验设置和实现以提高可重复性。
实验结果
研究问题
- RQ1在控制超参数和预算后,不同的GAN算法是否提供客观的性能优势?
- RQ2在固定预算下,GAN对超参数、种子和架构的敏感性有多大?
- RQ3FID在跨数据集和编码对比GAN时是否是鲁棒度量?精确度/召回能否提供互补洞见?
- RQ4我们能否设计数据集,使精确度和召回可被近似,以评估模式覆盖和过拟合?
主要发现
| 数据集 | MM GAN | NS GAN | LSGAN | WGAN | WGAN GP | DRAGAN | BEGAN | VAE |
|---|---|---|---|---|---|---|---|---|
| MNIST | 9.8±0.9 | 6.8±0.5 | 7.8±0.6 | 6.7±0.4 | 20.3±5.0 | 7.6±0.4 | 13.1±1.0 | 23.8±0.6 |
| FASHION | 29.6±1.6 | 26.5±1.6 | 30.7±2.2 | 21.5±1.6 | 24.5±2.1 | 27.7±1.2 | 22.9±0.9 | 58.7±1.2 |
| CIFAR | 72.7±3.6 | 58.5±1.9 | 87.1±47.5 | 55.2±2.3 | 55.8±0.9 | 69.8±2.0 | 71.4±1.6 | 155.7±11.6 |
| CELEBA | 65.6±4.2 | 55.0±3.3 | 53.9±2.8 | 41.3±2.0 | 30.0±1.0 | 42.3±3.0 | 38.9±0.9 | 85.7±3.8 |
- 在充分的超参数优化和随机重新启动后,大多数GAN变体在FID分数上表现相近。
- 最佳报告分数随数据集和预算而变化,表明在公平比较下没有单一算法占优。
- FID对某些变化具有鲁棒性,但对模式丢失和编码选择高度敏感;它无法检测过拟合。
- 精确度、召回和F1可以揭示FID或IS未捕捉的多样性和覆盖差距。
- 在小预算下,算法差异不易区分;较大预算可能改变模型间的感知质量。
- 在一组数据集上,nsGAN和wgan通常获得有利的F1分数,而其他的结果则呈混合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。