QUICK REVIEW

[论文解读] On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation

Gaurav Parmar, Richard Zhang|arXiv (Cornell University)|Apr 22, 2021

Generative Adversarial Networks and Image Synthesis参考文献 52被引用 38

一句话总结

本文研究了主流深度学习库中图像缩放实现不一致对Fréchet Inception Distance（FID）分数的显著影响，揭示了缩放库选择、插值核以及图像编码方式对FID分数造成巨大差异。作者识别出关键陷阱，提供精确建议，并发布了一个优化的、可复现的FID实现，以确保生成模型评估的准确性和一致性。

ABSTRACT

We investigate the sensitivity of the Fr\'echet Inception Distance (FID) score to inconsistent and often incorrect implementations across different image processing libraries. FID score is widely used to evaluate generative models, but each FID implementation uses a different low-level image processing process. Image resizing functions in commonly-used deep learning libraries often introduce aliasing artifacts. We observe that numerous subtle choices need to be made for FID calculation and a lack of consistencies in these choices can lead to vastly different FID scores. In particular, we show that the following choices are significant: (1) selecting what image resizing library to use, (2) choosing what interpolation kernel to use, (3) what encoding to use when representing images. We additionally outline numerous common pitfalls that should be avoided and provide recommendations for computing the FID score accurately. We provide an easy-to-use optimized implementation of our proposed recommendations in the accompanying code.

研究动机与目标

研究FID分数对深度学习库中低层次图像处理不一致的敏感性。
识别不同图像缩放实现（尤其是混叠伪影）对FID分数可靠性的影响。
强调缩放库、插值核和图像编码在FID计算中的重要性。
揭示导致生成模型评估中FID分数误导或不一致的常见实现陷阱。
提供一种标准化、准确且优化的FID实现，以确保模型比较中的可复现性和公平性。

提出的方法

使用多个图像缩放库（如OpenCV、PIL、Torchvision）系统性地评估FID分数，输入模型和数据集保持一致。
在受控条件下，比较不同插值核（如双线性、双三次、Lanczos）对FID分数的影响。
评估图像编码格式（如RGB与RGBA、位深）对FID计算的影响。
测量因缩放过程中引入的混叠伪影（尤其是使用非抗混叠核时）导致的FID分数变化。
实现并验证一种推荐的FID处理流程，通过标准化缩放方式、核函数和编码选择，实现一致结果。
发布一个生产就绪的、优化的代码库，强制执行推荐的FID计算实践。

实验结果

研究问题

RQ1在评估相同生成模型时，不同图像缩放库如何影响FID分数？
RQ2插值核选择（如双线性与双三次）在多大程度上影响FID分数？
RQ3图像编码格式（如RGB与RGBA、8位与16位）如何影响FID分数的一致性？
RQ4不恰当缩放导致的混叠伪影在多大程度上扭曲FID分数？
RQ5何种标准化、可复现的FID计算流程能最大限度减少研究与实践中的实现差异？

主要发现

即使使用相同的模型和数据集输入，不同的图像缩放库也会为同一生成模型产生显著不同的FID分数。
插值核的选择——尤其是非抗混叠核（如双线性）——会引入混叠伪影，从而扭曲FID分数。
图像编码格式（如RGBA与RGB）以及位深，由于像素表示的差异，显著影响FID值。
不一致的缩放实现导致不同库和配置下的FID分数差异高达10分或更多。
所提出的标准化处理流程（采用抗混叠缩放，统一核函数和编码方式）在实验中产生了稳定且可复现的FID分数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。