QUICK REVIEW

[論文レビュー] On the Discrimination-Generalization Tradeoff in GANs

Pengchuan Zhang, Qiang Liu|arXiv (Cornell University)|Nov 7, 2017

Evolutionary Algorithms and Applications参考文献 33被引用数 34

ひとこと要約

この論文は、GANにおけるニューラルネットワークディスクラミネーターが、実データと生成データを区別する能力（識別性能）と、未観測データへの一般化性能を両立する理論的条件を確立する。ディスクラミネーター集合が有界連続関数空間において稠密な線形包を持つ場合、その集合は識別可能であると証明し、生成モデルのサイズに依存しない一般化バウンドを提示。特にニューラル距離およびKLダイバージェンスの指標において有効である。

ABSTRACT

Generative adversarial training can be generally understood as minimizing certain moment matching loss defined by a set of discriminator functions, typically neural networks. The discriminator set should be large enough to be able to uniquely identify the true distribution (discriminative), and also be small enough to go beyond memorizing samples (generalizable). In this paper, we show that a discriminator set is guaranteed to be discriminative whenever its linear span is dense in the set of bounded continuous functions. This is a very mild condition satisfied even by neural networks with a single neuron. Further, we develop generalization bounds between the learned distribution and true distribution under different evaluation metrics. When evaluated with neural distance, our bounds show that generalization is guaranteed as long as the discriminator set is small enough, regardless of the size of the generator or hypothesis set. When evaluated with KL divergence, our bound provides an explanation on the counter-intuitive behaviors of testing likelihood in GAN training. Our analysis sheds lights on understanding the practical performance of GANs.

研究の動機と目的

GANが識別性能と一般化性能を両立する理論的条件を理解すること。
GANの目的関数が識別可能かつ一般化可能であることを保証するディスクラミネーター集合の役割を分析すること。
生成モデル集合に依存しない、異なる評価指標下でのGANの一般化バウンドを導出すること。
KLダイバージェンスに基づくバウンドを用いて、GAN学習におけるテスト尤度の直感に反する振る舞いを理論的に説明すること。
実用的なGAN学習におけるディスクラミネーターの表現力と一般化性能のバランスを特定すること。

提案手法

ディスクラミネーター関数の線形包が有界連続関数空間において稠密である場合、その集合は識別可能であると証明する。
積分確率的距離（IPM）を用いて、GAN学習の目的関数を、実データ分布と生成分布の間の距離を最小化するものとして形式化する。
ニューラル距離における一般化バウンドを導出し、生成モデルのサイズにかかわらず、ディスクラミネーター集合が十分に小さい場合に一般化が保証されることを示す。
KLダイバージェンス下での一般化バウンドを提供し、GANにおけるテスト尤度の不安定性を説明する。
特に最終層の特徴量の線形包を用いて、ニューラル距離およびニューラルダイバージェンスを分析する。
関数解析および経験過程理論の結果を応用し、ディスクラミネーターの複雑さに基づいて一般化誤差のバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1GANにおけるニューラル距離が識別可能であると保証される条件は何か？
RQ2ディスクラミネーター集合のサイズと複雑さは、GANの一般化性能にどのように影響するか？
RQ3なぜGAN学習におけるテスト尤度はしばしば直感に反する振る舞いを示すのか？理論的に説明可能か？
RQ4生成モデル集合に依存しない一般化バウンドを導出可能か？そのタイトネスは何かによって決定されるか？
RQ5ディスクラミネーターの表現力と生成分布の一般化性能との理論的関係は何か？

主な発見

ディスクラミネーター関数の線形包が有界連続関数空間において稠密である場合、その集合は識別可能であると保証される。この条件は、単一ニューロンネットワークですら容易に満たされる。
生成モデルや仮説集合のサイズにかかわらず、ディスクラミネーター集合が十分に小さい限り、GANにおける一般化は保証される。
KLダイバージェンス下での一般化バウンドは、GAN学習におけるテスト尤度の直感に反する振る舞いを説明しており、低尤度であっても生成品質が悪いとは限らない。
ニューラルダイバージェンスは、ディスクラミネーターの最終層特徴量の線形包が有界連続関数空間において稠密である場合に識別可能である。
理論的分析により、識別性能と一般化性能の根本的なトレードオフが明らかになった。識別性能を高めるには大きなディスクラミネーターが必要だが、一般化を確保するには小さなディスクラミネーターが望ましい。
本研究の結果は、実用的なGAN手法が、識別性能と一般化性能の両立を図るためにディスクラミネーター容量を暗黙的に調整していることと整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。