[논문 리뷰] A Study on the Evaluation of Generative Models
본 논문은 고품질의 합성 NotImageNet32 데이터셋을 구축하여 암시적 생성 모델의 평가 지표를 비교하고, FID/IS의 변동성과 CLIP 기반 특징이 Inception 기반 특징보다 우수함을 보이며, 지표 선택에 대한 실용적인 가이드를 제시한다.
Implicit generative models, which do not return likelihood values, such as generative adversarial networks and diffusion models, have become prevalent in recent years. While it is true that these models have shown remarkable results, evaluating their performance is challenging. This issue is of vital importance to push research forward and identify meaningful gains from random noise. Currently, heuristic metrics such as the Inception score (IS) and Frechet Inception Distance (FID) are the most common evaluation metrics, but what they measure is not entirely clear. Additionally, there are questions regarding how meaningful their score actually is. In this work, we study the evaluation metrics of generative models by generating a high-quality synthetic dataset on which we can estimate classical metrics for comparison. Our study shows that while FID and IS do correlate to several f-divergences, their ranking of close models can vary considerably making them problematic when used for fain-grained comparison. We further used this experimental setting to study which evaluation metric best correlates with our probabilistic metrics. Lastly, we look into the base features used for metrics such as FID.
연구 동기 및 목표
- 일반적인 생성 모델 평가 지표가 확률적 발산(KL 및 역 KL)을 얼마나 잘 반영하는지 평가한다.
- 비-ImageNet 데이터셋에서 Inception 기반 지표(FID/IS)의 신뢰성을 판단한다.
- 비-ImageNet 데이터에 대한 FID 유사 평가를 위한 특징 추출기(Inception 대 CLIP)를 비교한다.
- 강건하고 변동성이 낮은 평가 관행에 대한 권고를 제공한다.
제안 방법
- ImageNet32에서 학습된 Image-GPT로 샘플링하여 100k장의 합성 벤치마크(NotImageNet32)를 생성한다.
- 다양한 크기의 가능도 기반 모델(PixelSnail 및 VD-VAE)을 학습시키고 각 이미지의 가능도와 KL/RKL 발산을 계산한다.
- 경험적 지표(FID, IS, KID)와 바이어스 없는/확장 변형(FID∞, IS∞, Clean FID)을 계산한다.
- 확률적 발산과 경험적 지표 사이의 상관관계 및 순위 안정성(Kendall’s τ)을 평가한다.
- FID 유사 평가를 위한 Inception과 CLIP 특징의 가정된 정규성(가우시안성)을 정성적으로 비교한다.
실험 결과
연구 질문
- RQ1KL(p_data || p_model)와 역 KL이 FID와 IS와 같은 경험적 지표와 어떤 상관관계를 보이는가?
- RQ2비-ImageNet 데이터셋에서 FID와 IS가 미세하게 다른 모델들의 순위를 신뢰할 만한가?
- RQ3CLIP 기반 특징이 비-ImageNet 데이터 평가에서 Inception 특징보다 더 강건한 표현을 제공하는가?
- RQ4생성 모델 평가의 변동성을 줄이고 신뢰성을 높이기 위한 실용적 권고는 무엇인가?
- RQ5FID에서 Inception을 CLIP으로 교체하면 확률적 발산과의 정합이 향상되는가?
주요 결과
| KL | RKL | FID | IS | IS ∞ | KID | FID ∞ | Clean FID |
|---|---|---|---|---|---|---|---|
| 1 | 0.8895 | 0.7027 | 0.5889 | 0.4681 | 0.7770 | 0.8095 | 0.7909 |
| 0.8895 | 1 | 0.6337 | 0.5244 | 0.4314 | 0.7105 | 0.7267 | 0.7198 |
| 0.7027 | 0.6337 | 1 | 0.7979 | 0.7189 | 0.8513 | 0.8002 | 0.8699 |
| 0.5889 | 0.5244 | 0.7979 | 1 | 0.8281 | 0.7329 | 0.6818 | 0.7236 |
| 0.4681 | 0.4314 | 0.7189 | 0.8281 | 1 | 0.6167 | 0.5749 | 0.6074 |
| 0.7770 | 0.7105 | 0.8513 | 0.7329 | 0.6167 | 1 | 0.8606 | 0.9675 |
| 0.8095 | 0.7267 | 0.8002 | 0.6818 | 0.5749 | 0.8606 | 1 | 0.8746 |
| 0.7909 | 0.7198 | 0.8699 | 0.7236 | 0.6074 | 0.9675 | 0.8746 | 1 |
- FID와 IS는 KL/RKL과 상관관계가 있지만 더 변동성이 커 세밀한 비교가 불안정하다.
- IS 및 그 확장 지표는 많은 경우 다른 지표들보다 성능이 떨어진다.
- KL 및 RKL 순위는 높은 일치를 보이나(Kendall’s τ ~0.89), FID/IS 순위는 더 약하고 모델에 따라 달라진다.
- CLIP 기반 특징이 비-ImageNet 데이터셋에서 Inception 특징보다 우수하며 정성적 및 정규성 테스트에서도 우수하다.
- FID∞와 같은 바이어스 없는/확장 지표가 표준 FID/IS에 비해 KL/RKL과의 상관관계를 개선한다.
- NotImageNet32는 생성 모델 지표를 평가하는 유용한 테스트 베드이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.