Skip to main content
QUICK REVIEW

[論文レビュー] The Role of ImageNet Classes in Fr\'echet Inception Distance

Tuomas Kynkäänniemi, Tero Karras|arXiv (Cornell University)|Mar 11, 2022
Data Visualization and Analytics被引用数 32
ひとこと要約

この論文は、FID(Fréchet Inception Distance)が、実画像と生成画像の間のトップImageNetクラス確率の整合性に強く影響を受けることが明らかになった。これは、視覚的品質よりも、むしろ画像の類似性に依存している。特に、座席ベルトやスーツといった周縁クラスの活性化を操作することで、視覚的忠実度を向上させずにFIDを著しく低下させることができ、生成モデルが関係のないImageNetクラスパターンを無意識に模倣する場合にFIDが歪みやすいことが示された。

ABSTRACT

Fr\'echet Inception Distance (FID) is the primary metric for ranking models in data-driven generative modeling. While remarkably successful, the metric is known to sometimes disagree with human judgement. We investigate a root cause of these discrepancies, and visualize what FID "looks at" in generated images. We show that the feature space that FID is (typically) computed in is so close to the ImageNet classifications that aligning the histograms of Top-$N$ classifications between sets of generated and real images can reduce FID substantially -- without actually improving the quality of results. Thus, we conclude that FID is prone to intentional or accidental distortions. As a practical example of an accidental distortion, we discuss a case where an ImageNet pre-trained FastGAN achieves a FID comparable to StyleGAN2, while being worse in terms of human evaluation.

研究の動機と目的

  • 生成モデル評価においてFIDが人間の判断と一致しない理由を調査すること。
  • FIDが不要なImageNetクラス特徴に敏感である根本的原因を特定すること。
  • 視覚的品質の向上なしに、トップImageNetクラス分布の整合性をとることでFIDを改善できるかを実証すること。
  • GANsにおけるImageNet事前学習がFIDの信頼性に与える影響を評価すること。
  • FIDのバイアスを軽減するため、CLIPのような非ImageNet特徴空間を用いた代替評価指標を提案すること。

提案手法

  • Grad-CAMを用いて、FIDが最も感度を示す画像領域を可視化し、顕著なImageNetクラスに注目していることが判明した。
  • 標準のpre-logit空間とは別に、ログティックおよびクラス確率空間でのFIDを計算し、代替特徴空間での比較を実施した。
  • 実画像と生成画像の間でTop-N ImageNetクラス確率を整合させる最適化を実行し、それに伴うFIDの変化を測定した。
  • バイナリ化されたクラス確率ベクトルを用いて、上位クラスと下位クラスの影響をFIDに与える程度を評価した。
  • FIDCLIP(CLIP特徴を用いたFID)と比較することで、クラス整合性によるFID向上が視覚的意味を持たないことを検証した。
  • Projected FastGANとStyleGAN2の事例研究を実施し、iso-FID比較と人間の好み評価を組み合わせて、FIDの信頼性のなさを検証した。

実験結果

リサーチクエスチョン

  • RQ1なぜFIDは画像品質の人間判断と相関しないことがあるのか?
  • RQ2FIDは、視覚的リアリズムよりも、トップImageNetクラスの共起にどれほど依存しているのか?
  • RQ3画像品質を向上させずに、クラス確率を整合させることでFIDを意図的に改善できるか?
  • RQ4DiscriminatorにImageNet事前学習特徴を使用する場合、FIDの信頼性にどのような影響を与えるか?
  • RQ5CLIPのような代替特徴空間は、生成モデル評価においてより頑健であるか?

主な発見

  • 実画像と生成画像のTop-5 ImageNetクラス確率を一致させることで、視覚的品質に変化がなくてもFIDを最大2.5ポイントまで低下させることができる。
  • N=5の上位クラスのみを一致させても、FIDは急速に改善され、pre-logit空間での最適化と同等の値に近づく。
  • 上位クラス(例:'suit'、'seat belt')は、下位クラスに比べてFIDに著しく大きな影響を与える。
  • Projected FastGANはStyleGAN2と同等のFID(5.28 vs. 5.30)を達成しているが、顔のアーチファクトが著しく多く、この場合FIDは誤解を招く。
  • FIDCLIP(CLIP特徴を用いたFID)は、StyleGAN2が優れていることを正しく特定している(FIDCLIP=2.76 vs. 4.67)、FIDの向上が視覚的意味を持たないことが裏付けられた。
  • 本研究は、GANsにおけるImageNet事前学習が、不要な周縁ImageNetクラスの模倣によって、FID値を不自然に低くする原因となる可能性があることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。