Skip to main content
QUICK REVIEW

[논문 리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

Tongda Xu, Mingwei He|arXiv (Cornell University)|2026. 03. 05.
Advanced Neuroimaging Techniques and Applications인용 수 0
한 줄 요약

본 논문은 iFID(인터폴레이티드 FID)를 소개합니다. 이는 확산 모델 생성 FID(gFID)와 강하게 상관관계가 있는 간단한 잠재 공간 보간 지표로, 재구성–생성의 이분 문제를 다룹니다. 또한 rFID가 정제(refinement) 단계의 품질과 상관관계가 있고 iFID는 탐색(navigation) 단계의 품질과 상관관계가 있음을 보여주며, 확산 일반화와 환각에 기반한 해석과 함께 코드를 공개합니다.

ABSTRACT

It is well known that the reconstruction FID (rFID) of a VAE is poorly correlated with the generation FID (gFID) of a latent diffusion model. We propose interpolated FID (iFID), a simple variant of rFID that exhibits a strong correlation with gFID. Specifically, for each element in the dataset, we retrieve its nearest neighbor (NN) in the latent space and interpolate their latent representations. We then decode the interpolated latent and compute the FID between the decoded samples and the original dataset. Additionally, we refine the claim that rFID correlates poorly with gFID, by showing that rFID correlates with sample quality in the diffusion refinement phase, whereas iFID correlates with sample quality in the diffusion navigation phase. Furthermore, we provide an explanation for why iFID correlates well with gFID, and why reconstruction metrics are negatively correlated with gFID, by connecting to results in the diffusion generalization and hallucination. Empirically, iFID is the first metric to demonstrate a strong correlation with diffusion gFID, achieving Pearson linear and Spearman rank correlations approximately 0.85. The source code is provided in https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.

연구 동기 및 목표

  • 확산 생성 품질을 VAE 재구성에서 예측하는 메트릭의 필요성을 제시합니다.
  • 간단한 잠재 공간 보간 변형인 rFID(iFID)를 제안하고, 그것의 gFID와의 강한 상관관계를 입증합니다.
  • 정제 및 탐색 단계에서 rFID가 확산 샘플 품질과 어떻게 연관되는지 이해를 다듬습니다.
  • iFID가 왜 확산 성능과 상관관계가 있는지, 왜 표준 재구성 지표가 실패할 수 있는지 설명합니다.
  • ImageNet에서 다양한 VAE 및 확산 모델을 대상으로 iFID를 평가합니다.

제안 방법

  • 잠재-확산 설정(VAE 인코더, 디코더 g, 확산 솔버 Φ)에서 rFID와 gFID를 정의합니다.
  • 원본 이미지와 디코딩된 보간 잠재 ẑ = 0.5(z + NN(z)) 사이의 FID로 iFID를 도입합니다. 여기서 NN(z)는 잠재 공간의 가장 가까운 이웃입니다.
  • 확산 궤적과 단계 전반에서 rFID/iFID/gFID 간의 상관(PCC 및 SRCC)을 평가합니다.
  • 선형, 구면, 마스크 보간 등 보간 유형, 보간 강도 α, 이웃 집합 크기에 대한 절차를 통해 강건성 테스트를 수행합니다.
  • iFID가 확산 일반화/환각 문헌과 연결해 왜 확산 품질을 추적하는지 분석합니다.
  • 재구성 지표 및 비재구성 손실(Diffusion Loss, EQ/SE/VF/GMM Loss)과의 비교를 통해 iFID의 예측 성능을 평가합니다.
Figure 1: Left two plots : The rFID values of VAEs are uncorrelated, or even negatively correlated with, the gFID values of diffusion models. Right two plots : iFID metric exhibits a strong positive correlation with the gFID values of diffusion models.
Figure 1: Left two plots : The rFID values of VAEs are uncorrelated, or even negatively correlated with, the gFID values of diffusion models. Right two plots : iFID metric exhibits a strong positive correlation with the gFID values of diffusion models.

실험 결과

연구 질문

  • RQ1iFID가 VAE 전반에 걸쳐 rFID보다 확산 gFID의 더 강하고 신뢰할 수 있는 대리 지표를 제공할 수 있는가?
  • RQ2정제 단계와 탐색 단계에서 rFID와 iFID가 확산 샘플 품질과 어떻게 관련되는가?
  • RQ3훈련 데이터 및 잠재 공간 구조의 보간 측면에서 iFID가 gFID와 왜 상관관계를 가지는가?
  • RQ4확산 생성 품질에 영향을 주는 잠재 공간 속성(연결성, 보간의 타당성)은 무엇인가?

주요 결과

  • iFID는 모델과 설정 전반에서 확산 gFID와 강한 상관관계를 보이며(약 0.85의 Pearson 및 Spearman),
  • 정제 단계에서 rFID가 확산 샘플 품질과 상관관계를 보이고, 탐색 단계에서 iFID가 품질과 상관관계를 보입니다.
  • 재구성 지표(PSNR, SSIM, LPIPS)는 확산 gFID와 음의 상관관계를 보여 재구성-생성 이분법을 보여줍니다.
  • iFID가 비재구성 지표 및 확산 손실보다 gFID 예측에 더 나은 성능을 보이며, 보간된 잠재 표현의 타당성을 포착한다는 것을 시사합니다.
  • 강건성 분석에서 iFID는 보간 방법(선형, 구면, 마스크), NN(z) 반복 크기 하위집합, 상위-K 이웃 사용에 대해 안정적이며, 구면 보간이 가장 높은 상관을 보입니다.
  • 저자들은 iFID를 확산 일반화와 환각에 연결하는 직관을 제공하며, 잠재 공간의 보간이 생성 성능을 반영하는 이유를 설명합니다.
Figure 2: The refinement and navigation phases are key components of the sampling process for SiT-XL trained with SD-VAE. In the refinement phase (small $t$ ), the sample generated from the noisy source is nearly identical to the source. In contrast, during the navigation phase (large $t$ ), the sam
Figure 2: The refinement and navigation phases are key components of the sampling process for SiT-XL trained with SD-VAE. In the refinement phase (small $t$ ), the sample generated from the noisy source is nearly identical to the source. In contrast, during the navigation phase (large $t$ ), the sam

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.