QUICK REVIEW

[論文レビュー] Are GANs Created Equal? A Large-Scale Study

Mario Lučić, Karol Kurach|arXiv (Cornell University)|Nov 28, 2017

Generative Adversarial Networks and Image Synthesis被引用数 77

ひとこと要約

この論文は、最先端GANの大規模で中立的な比較を実施し、十分なハイパーパラメータ調整があれば多くが同様に性能を示すことを示すとともに、FIDを補完する精度/再現率ベースの評価データセットを提案する。

ABSTRACT

Generative adversarial networks (GAN) are a powerful subclass of generative models. Despite a very rich research activity leading to numerous interesting GAN algorithms, it is still very hard to assess which algorithm(s) perform better than others. We conduct a neutral, multi-faceted large-scale empirical study on state-of-the art models and evaluation measures. We find that most models can reach similar scores with enough hyperparameter optimization and random restarts. This suggests that improvements can arise from a higher computational budget and tuning more than fundamental algorithmic changes. To overcome some limitations of the current metrics, we also propose several data sets on which precision and recall can be computed. Our experimental results suggest that future GAN research should be based on more systematic and objective evaluation procedures. Finally, we did not find evidence that any of the tested algorithms consistently outperforms the non-saturating GAN introduced in \cite{goodfellow2014generative}.

研究の動機と目的

実用的な計算予算の下でGANバリアント間の公正かつ中立的な比較を促進する。
ハイパーパラメータ、シード、データセットが報告されたGANの性能に与える影響を評価する。
現在の指標(FIDとIS)の頑健性と限界を評価する。
FIDを補完するため、制御されたデータ多様体上での精度/再現率ベースの評価を提案する。

提案手法

共通のアーキテクチャと標準化された訓練設定を使用して無条件GANを比較する。
大規模なハイパーパラメータ探索を行い（広くから狭くへ）、モデルとデータセット間の感度を評価する。
Fréchet Inception Distance (FID) および派生した精度/再現率指標を用いて評価する。
データセット全体でFIDに対するバイアス、分散、およびモードドロップの影響を分析する。
再現性のためのオープンソースの実験設定と実装。

実験結果

リサーチクエスチョン

RQ1ハイパーパラメータと予算が統制された場合、異なるGANアルゴリズムは客観的な性能上の利点を提供するか？
RQ2固定予算の下で、 GANはハイパーパラメータ、シード、アーキテクチャにどの程度敏感か？
RQ3FIDはデータセットとエンコーディングを跨いだGANの比較に対して頑健な指標か、精度/再現率は補完的な洞察を提供できるか？
RQ4精度と再現率を近似できるデータセットを設計し、モードカバレッジと過適合を評価できるか？

主な発見

Data Set	MM GAN	NS GAN	LSGAN	WGAN	WGAN GP	DRAGAN	BEGAN	VAE
MNIST	9.8±0.9	6.8±0.5	7.8±0.6	6.7±0.4	20.3±5.0	7.6±0.4	13.1±1.0	23.8±0.6
FASHION	29.6±1.6	26.5±1.6	30.7±2.2	21.5±1.6	24.5±2.1	27.7±1.2	22.9±0.9	58.7±1.2
CIFAR	72.7±3.6	58.5±1.9	87.1±47.5	55.2±2.3	55.8±0.9	69.8±2.0	71.4±1.6	155.7±11.6
CELEBA	65.6±4.2	55.0±3.3	53.9±2.8	41.3±2.0	30.0±1.0	42.3±3.0	38.9±0.9	85.7±3.8

十分なハイパーパラメータ最適化とランダム再起動が与えられると、ほとんどのGANバリアントは類似のFIDスコアを達成する。
報告されたベストスコアはデータセットと予算に依存して変動し、公正な比較下で支配的なアルゴリズムは存在しないことを示唆する。
FIDは一部の変更に対して頑健だが、モードドロップとエンコーディングの選択には非常に敏感で、過剰適合を検出できない。
精度、再現率、F1はFIDやISでは捉えきれない多様性とカバレッジのギャップを示すことができる。
小さな予算ではアルゴリズム間の差は識別が難しく、大きな予算はモデル間の知覚品質を逆転させることがある。
複数のデータセットに渡って、nsGANとwganはしばしば有利なF1スコアを示す一方、他は混在した結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。