QUICK REVIEW

[논문 리뷰] The Role of ImageNet Classes in Fr\'echet Inception Distance

Tuomas Kynkäänniemi, Tero Karras|arXiv (Cornell University)|2022. 03. 11.

Data Visualization and Analytics인용 수 32

한 줄 요약

이 논문은 생성된 이미지와 진짜 이미지 간의 상위 ImageNet 클래스 확률의 정렬이 시각적 품질보다 FID(Fréchet Inception Distance)에 더 큰 영향을 미친다는 것을 드러낸다. 특히 '시트 벨트'나 '정장'과 같은 테두리에 가까운 클래스들에 대해 이러한 클래스 활성도를 조작함으로써, 시각적 정밀도가 향상되지 않은 상태에서도 FID를 크게 감소시킬 수 있으며, 이는 모델이 관련이 없는 ImageNet 클래스 패턴을 무작위로 모방함에 따라 FID가 왜곡되기 쉬운 것을 보여준다.

ABSTRACT

Fr\'echet Inception Distance (FID) is the primary metric for ranking models in data-driven generative modeling. While remarkably successful, the metric is known to sometimes disagree with human judgement. We investigate a root cause of these discrepancies, and visualize what FID "looks at" in generated images. We show that the feature space that FID is (typically) computed in is so close to the ImageNet classifications that aligning the histograms of Top-$N$ classifications between sets of generated and real images can reduce FID substantially -- without actually improving the quality of results. Thus, we conclude that FID is prone to intentional or accidental distortions. As a practical example of an accidental distortion, we discuss a case where an ImageNet pre-trained FastGAN achieves a FID comparable to StyleGAN2, while being worse in terms of human evaluation.

연구 동기 및 목표

생성 모델 평가에서 FID가 인간의 판단과 어긋나는 이유를 조사하기 위해.
FID가 관련 없는 ImageNet 클래스 특징에 민감한 이유의 근본 원인을 규명하기 위해.
시각적 품질 향상 없이도 상위 ImageNet 클래스 분포를 정렬함으로써 FID 향상을 달성할 수 있음을 보여주기 위해.
GAN에서 ImageNet 사전 훈련 특징을 사용할 경우 FID의 신뢰성에 대해 평가하기 위해.
FID의 편향을 줄이기 위해 ImageNet 외 특징 공간(예: CLIP)을 사용하는 대안 평가 메트릭스를 제안하기 위해.

제안 방법

FID가 가장 민감하게 반응하는 이미지 영역을 시각화하기 위해 Grad-CAM을 사용하여, 주로 두드러진 ImageNet 클래스에 집중됨을 확인했다.
기존의 pre-logit 공간 외의 특징 공간에서 FID를 계산: 로지트와 클래스 확률을 활용하여 비교 분석했다.
실제 이미지와 생성된 이미지 간의 상위 N개의 ImageNet 클래스 확률을 정렬하기 위해 최적화를 수행하고, 그로 인한 FID 변화를 측정했다.
이진화된 클래스 확률 벡터를 사용하여 상위 및 하위 순위 클래스들이 FID에 미치는 영향을 평가했다.
FID와 FIDCLIP(클립 특징을 사용)를 비교하여, 클래스 정렬로 인한 FID 향상이 시각적으로 의미 있는 것은 아님을 검증했다.
Projected FastGAN과 StyleGAN2를 대상으로 사례 연구를 수행했으며, iso-FID 비교와 인간 선호도 조사 결과를 통해 FID의 신뢰성 부족을 검증했다.

실험 결과

연구 질문

RQ1왜 FID는 때로 이미지 품질에 대한 인간의 판단과 상관관계를 가지지 못하는가?
RQ2FID는 시각적 현실감보다 상위 ImageNet 클래스의 동시 발생에 얼마나 크게 영향을 받는가?
RQ3시각적 품질 향상 없이도 클래스 확률을 정렬함으로써 FID를 인위적으로 향상시킬 수 있는가?
RQ4GAN의 판별기에서 ImageNet 사전 훈련 특징을 사용할 경우 FID의 신뢰성은 어떻게 영향을 받는가?
RQ5CLIP와 같은 대체 특징 공간은 생성 모델 평가에 더 견고한가?

주요 결과

실제 이미지와 생성된 이미지 간의 상위 5개의 ImageNet 클래스 확률을 정렬함으로써 FID를 최대 2.5점까지 감소시킬 수 있으며, 이는 시각적 품질 향상 없이도 가능하다.
상위 5개 클래스만 정렬해도 FID는 급격히 향상되며, pre-logit 공간에서 최적화한 결과와 유사한 수준에 도달한다.
상위 순위의 ImageNet 클래스들(예: '정장', '시트 벨트')은 하위 순위 클래스들에 비해 FID에 비례적으로 더 큰 영향을 미친다.
Projected FastGAN은 StyleGAN2와 유사한 FID(5.28 vs. 5.30)를 기록하지만, 얼굴 기형이 훨씬 더 심각하게 발생하여 이 경우 FID가 오해의 소지가 있음을 보여준다.
FIDCLIP는 CLIP 특징을 사용하며, StyleGAN2가 더 우수하다는 점을 정확히 반영한다(FIDCLIP=2.76 vs. 4.67), 이는 FID 향상이 시각적으로 의미 있는 것은 아니라는 점을 확인한다.
본 연구는 GAN에서 ImageNet 사전 훈련이 이루어질 경우, 의도하지 않은 방식으로 테두리에 가까운 ImageNet 클래스 패턴을 모방함으로써 FID 값이 인위적으로 낮아질 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.