QUICK REVIEW

[論文レビュー] Towards GAN Benchmarks Which Require Generalization

Ishaan Gulrajani, Colin Raffel|arXiv (Cornell University)|Jan 10, 2020

Model-Driven Software Engineering Techniques被引用数 33

ひとこと要約

要約: 本論文は、一般的なGAN評価指標は memorization によって不正に操作できると主張し、サンプルベースのベンチマークとして neural network divergences (NNDs) を提案します。これらは genuine generalization を要する。CNNベースの発散を示し、 memorization をペナルティ付与し、知覚品質と相関することを示します。

ABSTRACT

For many evaluation metrics commonly used as benchmarks for unconditional image generation, trivially memorizing the training set attains a better score than models which are considered state-of-the-art; we consider this problematic. We clarify a necessary condition for an evaluation metric not to behave this way: estimating the function must require a large sample from the model. In search of such a metric, we turn to neural network divergences (NNDs), which are defined in terms of a neural network trained to distinguish between distributions. The resulting benchmarks cannot be "won" by training set memorization, while still being perceptually correlated and computable only from samples. We survey past work on using NNDs for evaluation and implement an example black-box metric based on these ideas. Through experimental validation we show that it can effectively measure diversity, sample quality, and generalization.

研究の動機と目的

一般化を必要とする、サンプルベースの unconditional 画像生成の意味あるベンチマークを定義する。
評価指標がトレーニングセット memorization ではなく generalization を促進する方法を明確にする。
そのようなベンチマークとして neural network divergences (NNDs) を調査し、その特性を評価する。

提案手法

評価指標を有限サンプルから推定される分布間の発散として位置づける。
モデルがtraining-set memorization を超える必要があるというベースラインを提案する（定義1）。
CNN 発散 (D_CNN) を CNN critic と WGAN-GP 目的関係を用いた実用的な NND として導入し、一般化を評価する実験プロトコルを提示する。
どれくらいの学習サンプルが memorization を超えるために必要かを、さまざまな指標で評価する（表2）。
CIFAR-10 で IS と FID に対して D_CNN を用いた比較を行う。

実験結果

リサーチクエスチョン

RQ1サンプルベースの指標を設計して memorization がモデルを容易に打ち負かせないようにできるか、したがって generalization を強制できるか。
RQ2 neural network divergences は GANs における memorization と genuine generalization を効果的に検出するか。
RQ3知覚的に整合した NNDs（例：CNN ベース）は、サンプル多様性と品質の相関において IS および FID とどのように比較されるか。

主な発見

Eval. Metric	GAN	Memorization	Inception Score (IS)	FID (train)	FID (test)	D_CNN(train)	D_CNN(test)
IS（高いほど良い）	6.49	11.3	-	-	-	-	-
FID（訓練データ、低い方が良い）	38.6	0.51	-	-	-	-	-
FID（テストデータ、低い方が良い）	38.6	5.63	-	-	-	-	-
D_CNN訓練データ（低い方が良い）	12.8	1.69e-4	-	-	-	-	-
D_CNNテストデータ（低い方が良い）	12.9	14.7	-	-	-	-	-

IS と FID は memorization を learned generalization より有利に働かせる可能性があり、一方で CNN 発散は訓練データを超えて generalize するモデルを好む。
CNN 発散は過学習を検出し、提示された実験で IS/FID より多様性をより効果的に測定する。
WGAN-GP 設定で学習した CNN 発散は、D_CNN を test サンプルで評価した場合 CIFAR-10 で memorization を上回ることができ、より広い generalization と相関する。
critic の必須サンプル数を増やすと memorization がモデルを打ち負かす閾値が上がり、多様性に対する感度が示唆される。
CNN 発散値は訓練中に低下し、訓練とテストの発散のギャップを明らかにし、評価における generalization の重要性を強調する。
小さなテストセットからのバイアスが推定値に影響を与える可能性があるが、大規模と小規模のテストセット間の傾向は依然相関する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。