[论文解读] A Study on the Evaluation of Generative Models
本文构建了高质量的综合性合成数据集 NotImageNet32,用于比较隐式生成模型的评估指标,结果显示 FID/IS 的波动性以及基于 CLIP 的特征优于基于 Inception 的特征。并提出了实用的度量选择指南。
Implicit generative models, which do not return likelihood values, such as generative adversarial networks and diffusion models, have become prevalent in recent years. While it is true that these models have shown remarkable results, evaluating their performance is challenging. This issue is of vital importance to push research forward and identify meaningful gains from random noise. Currently, heuristic metrics such as the Inception score (IS) and Frechet Inception Distance (FID) are the most common evaluation metrics, but what they measure is not entirely clear. Additionally, there are questions regarding how meaningful their score actually is. In this work, we study the evaluation metrics of generative models by generating a high-quality synthetic dataset on which we can estimate classical metrics for comparison. Our study shows that while FID and IS do correlate to several f-divergences, their ranking of close models can vary considerably making them problematic when used for fain-grained comparison. We further used this experimental setting to study which evaluation metric best correlates with our probabilistic metrics. Lastly, we look into the base features used for metrics such as FID.
研究动机与目标
- 评估常用生成模型评估指标在多大程度上反映概率发散(KL 与反向 KL)。
- 评估基于 Inception 的指标(FID/IS)在非 ImageNet 数据集上的可靠性。
- 比较特征提取器(Inception vs CLIP)在非 ImageNet 数据上的 FID 类评估的表现。
- 为稳健且波动较小的评估实践提供建议。
提出的方法
- 通过对在 ImageNet32 上训练的 Image-GPT 进行采样,创建一个包含 100k 张图像的合成基准数据集(NotImageNet32)。
- 训练多种可能性基模型(PixelSnail 和VD-VAE),大小不同,计算每张图像的似然、以及 KL/RKL 发散。
- 计算经验度量(FID、IS、KID)及其无偏/扩展变体(FID∞、IS∞、Clean FID)。
- 评估概率发散与经验度量之间的相关性与排序稳定性(Kendall’s τ)。
- 对 Inception 与 CLIP 特征在 FID 类评估中的高斯性假设进行定性比较。
实验结果
研究问题
- RQ1KL(p_data || p_model) 与反向 KL 在各模型之间与如 FID 和 IS 等经验度量相关?
- RQ2在非 ImageNet 数据集上,FID 和 IS 是否对近似模型的细粒度排序具有可靠性?
- RQ3基于 CLIP 的特征是否比 Inception 特征在评估非 ImageNet 数据时提供更稳健的表示?
- RQ4降低波动性、提升生成模型评估可靠性的实用建议是什么?
- RQ5在 FID 中将 Inception 替换为 CLIP 是否能改善与概率发散的一致性?
主要发现
| KL | RKL | FID | IS | IS ∞ | KID | FID ∞ | 净 FID |
|---|---|---|---|---|---|---|---|
| 1 | 0.8895 | 0.7027 | 0.5889 | 0.4681 | 0.7770 | 0.8095 | 0.7909 |
| 0.8895 | 1 | 0.6337 | 0.5244 | 0.4314 | 0.7105 | 0.7267 | 0.7198 |
| 0.7027 | 0.6337 | 1 | 0.7979 | 0.7189 | 0.8513 | 0.8002 | 0.8699 |
| 0.5889 | 0.5244 | 0.7979 | 1 | 0.8281 | 0.7329 | 0.6818 | 0.7236 |
| 0.4681 | 0.4314 | 0.7189 | 0.8281 | 1 | 0.6167 | 0.5749 | 0.6074 |
| 0.7770 | 0.7105 | 0.8513 | 0.7329 | 0.6167 | 1 | 0.8606 | 0.9675 |
| 0.8095 | 0.7267 | 0.8002 | 0.6818 | 0.5749 | 0.8606 | 1 | 0.8746 |
| 0.7909 | 0.7198 | 0.8699 | 0.7236 | 0.6074 | 0.9675 | 0.8746 | 1 |
- FID 与 IS 与 KL/RKL 相关,但波动性更大,使细粒度比较不可靠。
- IS 及其扩展在许多情景中表现不如其他指标。
- KL 与 RKL 的排序高度一致(Kendall’s τ ~0.89),但 FID/IS 的排序则较弱且在不同模型之间变化。
- 基于 CLIP 的特征在非 ImageNet 数据集中,在定性与正态性测试中均优于 Inception 特征。
- 无偏/扩展指标如 FID∞ 相较于标准 FID/IS 能提升与 KL/RKL 的相关性。
- NotImageNet32 是评估生成模型指标的有用测试平台。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。