QUICK REVIEW

[論文レビュー] On the Quantitative Analysis of Decoder-Based Generative Models

Yuhuai Wu, Yuri Burda|arXiv (Cornell University)|Nov 14, 2016

Generative Adversarial Networks and Image Synthesis被引用数 34

ひとこと要約

本稿では、変換型生成モデルにおける対数尤度の正確な推定のため、アニールド重要度サンプリング（AIS）の使用を提案し、双方向モンテカルロ法（BDMC）を用いてその正確性を検証している。AISの結果、VAEはGANやGMMNと比較して300ナツ以上も高い対数尤度を達成していることが判明したが、これはKDEによる推定が誤解を招く結果をもたらしていたことと矛盾する。一方で、GANのモード崩壊やVAEの過学習もAISによって明らかになった。

ABSTRACT

The past several years have seen remarkable progress in generative models which produce convincing samples of images and other modalities. A shared component of many powerful generative models is a decoder network, a parametric deep neural net that defines a generative distribution. Examples include variational autoencoders, generative adversarial networks, and generative moment matching networks. Unfortunately, it can be difficult to quantify the performance of these models because of the intractability of log-likelihood estimation, and inspecting samples can be misleading. We propose to use Annealed Importance Sampling for evaluating log-likelihoods for decoder-based models and validate its accuracy using bidirectional Monte Carlo. The evaluation code is provided at https://github.com/tonywu95/eval_gen. Using this technique, we analyze the performance of decoder-based models, the effectiveness of existing log-likelihood estimators, the degree of overfitting, and the degree to which these models miss important modes of the data distribution.

研究の動機と目的

VAE、GAN、GMMNなどの変換型生成モデルにおける対数尤度推定の非可解性に対処すること。
特に高次元データ設定下での対数尤度推定器の正確性を検証すること。
モデルが訓練データを過学習しているか、重要なデータ分布のモードを逸脱しているかを調査すること。
サンプルベースやKDEベースの評価に頼るのではなく、正確な対数尤度を用いてVAE、GAN、GMMNの真の性能を比較すること。

提案手法

直接計算が非可解な状況においても正確な評価が可能なため、変換型モデルにおける対数尤度推定にアニールド重要度サンプリング（AIS）を用いる。
推定誤差と事後分布の乖離に明確な境界を提供するため、AISの正確性を双方向モンテカルロ法（BDMC）を用いて検証する。
VAEに内蔵された認識ネットワークを活用し、初期提案分布として用いることで、AISの高速化を図る。
比較のためのベースラインとして、高次元では知られているように不正確であることが分かっているカーネル密度推定（KDE）を採用する。
AISによる近似事後分布サンプルの可視化を通じて、モードカバレッジと再構成品質を評価する。
モデル間の訓練対数尤度とテスト対数尤度の比較を通じて、過学習の程度を定量化する。

実験結果

リサーチクエスチョン

RQ1VAEなどの変換型モデルに対して、KDE や重要度加重境界といった既存の対数尤度推定器の正確性はどの程度か？
RQ2GAN や GMMN は訓練データを記憶することで過学習しているのか、それとも VAE よりも一般化性能が優れているのか？
RQ3訓練データに存在するにもかかわらず、生成モデルがデータ分布の重要なモードを無視していることはあるか？
RQ4正確な対数尤度推定を用いた場合、VAE、GAN、GMMN の間で実際の性能にどの程度の差があるのか？
RQ5AIS や BDMC は、サンプルの観察や KDE では見えない過学習やモード崩壊を検出できるのか？

主な発見

KDEは高次元で著しく信頼性が低いことが知られているが、AISはKDEに比べて2桁以上も高い正確性でVAE、GAN、GMMNの対数尤度を推定した。
VAEはGANやGMMNと比較して300ナツ以上も高い対数尤度を達成しており、これはKDEでは検出できないため、KDEによる推定が誤った結論を導く可能性があることを示している。
GANやGMMNはVAEほど過学習していない。むしろ、訓練対数尤度とテスト対数尤度の差が小さく、訓練データを記憶しているという仮説とは矛盾する。
AISによる事後分布の可視化により、GANが訓練データに存在する「2」の微細な変異（例：筆圧の違い）といった細部のモードを無視していることが明らかになった。
VAE-50のIWAE下界は200エポックを過ぎて低下するが、AIS推定値は安定しているため、認識ネットワークの過学習が原因であり、生成ネットワークの過学習ではないことが示された。
KDEはGMMN-50が10,000エポックで性能飽和を示していると誤って示したが、AISでは継続的な改善が見られた。これはKDEが学習継続の兆候を検出できないことを示しており、失敗の典型例である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。