QUICK REVIEW

[논문 리뷰] On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation

Gaurav Parmar, Richard Zhang|arXiv (Cornell University)|2021. 04. 22.

Generative Adversarial Networks and Image Synthesis참고 문헌 52인용 수 38

한 줄 요약

이 논문은 인기 있는 딥러닝 라이브러리에서 이미지 리사이징을 구현하는 방식의 일관성 없음이 프레셰 인셉션 거리(Fréchet Inception Distance, FID) 점수에 미치는 영향을 조사한다. 이는 리사이징 라이브러리, 보간 커널, 이미지 인코딩 방식의 선택이 점수에 상당한 영향을 미친다는 것을 드러내며, 주요 함정을 규명하고 정확한 권고 사항을 제시한다. 또한 정확하고 일관된 생성 모델 평가를 보장하기 위해 최적화되고 재현 가능한 FID 구현을 공개한다.

ABSTRACT

We investigate the sensitivity of the Fr\'echet Inception Distance (FID) score to inconsistent and often incorrect implementations across different image processing libraries. FID score is widely used to evaluate generative models, but each FID implementation uses a different low-level image processing process. Image resizing functions in commonly-used deep learning libraries often introduce aliasing artifacts. We observe that numerous subtle choices need to be made for FID calculation and a lack of consistencies in these choices can lead to vastly different FID scores. In particular, we show that the following choices are significant: (1) selecting what image resizing library to use, (2) choosing what interpolation kernel to use, (3) what encoding to use when representing images. We additionally outline numerous common pitfalls that should be avoided and provide recommendations for computing the FID score accurately. We provide an easy-to-use optimized implementation of our proposed recommendations in the accompanying code.

연구 동기 및 목표

다양한 딥러닝 라이브러리에서 저수준의 이미지 처리 불일치가 FID 점수에 미치는 민감도를 조사하는 것.
특히 앨리어싱 아티팩트를 유발하는 다양한 이미지 리사이징 구현 방식이 FID 점수 신뢰성에 어떤 영향을 미치는지 규명하는 것.
FID 계산에서 리사이징 라이브러리, 보간 커널, 이미지 인코딩 방식 등의 선택이 중요한 이유를 부각하는 것.
생성 모델 평가에서 잘못된 FID 점수나 일관성 없는 점수를 초래하는 일반적인 구현 함정을 드러내는 것.
재현 가능성과 공정성을 보장하기 위해 표준화되고 정확하며 최적화된 FID 구현을 제공하는 것.

제안 방법

동일한 모델과 데이터셋 입력을 사용하여 여러 이미지 리사이징 라이브러리(예: OpenCV, PIL, Torchvision)를 대상으로 FID 점수를 체계적으로 평가하는 것.
제어된 조건 하에서 다양한 보간 커널(예: 이선형, 이차형, Lanczos) 간의 FID 점수를 비교하는 것.
이미지 인코딩 형식(예: RGB 대비 RGBA, 비트 깊이)이 FID 계산에 어떤 영향을 미치는지 평가하는 것.
특히 비안티앨리어싱 커널을 사용할 경우 발생하는 리사이징 과정에서의 앨리어싱 아티팩트로 인한 FID 점수 변동을 측정하는 것.
표준화된 리사이징, 커널, 인코딩 선택을 반영한 권장되는 FID 파이프라인을 구현하고 검증하는 것.
연구 및 실무에서의 구현 변동을 최소화하기 위해 권장 사항을 강제 적용하는 프로덕션 수준의 최적화된 코드베이스를 공개하는 것.

실험 결과

연구 질문

RQ1동일한 생성 모델을 평가할 때, 다양한 이미지 리사이징 라이브러리가 FID 점수에 어떤 영향을 미치는가?
RQ2보간 커널 선택(예: 이선형 대비 이차형)이 FID 점수에 얼마나 큰 영향을 미치는가?
RQ3이미지 인코딩 형식(예: RGB 대비 RGBA, 8비트 대비 16비트)이 FID 점수 일관성에 어떤 영향을 미치는가?
RQ4부적절한 리사이징으로 인해 발생하는 앨리어싱 아티팩트가 FID 점수 왜곡에 어떤 역할을 하는가?
RQ5연구 및 실무에서 구현 변동을 최소화할 수 있는 표준화되고 재현 가능한 FID 계산 파이프라인은 무엇인가?

주요 결과

동일한 생성 모델에 대해, 동일한 모델과 데이터셋 입력을 사용하더라도 다양한 이미지 리사이징 라이브러리 간에 상당한 FID 점수 차이가 발생한다.
특히 비안티앨리어싱 커널(예: 이선형)을 사용할 경우 앨리어싱 아티팩트가 발생하여 FID 점수가 왜곡된다.
RGBA 대비 RGB와 같은 이미지 인코딩 형식, 비트 깊이의 차이는 픽셀 표현 방식의 차이로 인해 FID 값에 뚜렷한 영향을 미친다.
리사이징 구현의 일관성 없음으로 인해 다양한 라이브러리와 설정 간에 FID 점수 변동 폭이 최대 10점 이상으로 발생할 수 있다.
제안된 표준화된 파이프라인은 안티앨리어징 리사이징과 일관된 커널 및 인코딩 선택을 통해 실험 간에 안정적이고 재현 가능한 FID 점수를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.