Skip to main content
QUICK REVIEW

[論文レビュー] Comparison of Maximum Likelihood and GAN-based training of Real NVPs

Ivo Danihelka, Balaji Lakshminarayanan|arXiv (Cornell University)|May 15, 2017
Model Reduction and Neural Networks参考文献 16被引用数 41
ひとこと要約

この論文は、正確な対数確率計算が可能な流れベースの生成モデルであるReal NVPにおける最尤推定(MLE)とWasserstein GAN(WGAN)訓練を比較している。WGANで訓練された生成器は、対数確率密度が悪いにもかかわらず、よりグローバルに一貫性のあるサンプルを生成することが判明した。また、独立したコーピュトが近似Wasserstein距離を用いて過学習を検出できることを示し、これによりモデル評価が向上し、効率的な訓練のための新しい高速学習コーピュトが開発された。

ABSTRACT

We train a generator by maximum likelihood and we also train the same generator architecture by Wasserstein GAN. We then compare the generated samples, exact log-probability densities and approximate Wasserstein distances. We show that an independent critic trained to approximate Wasserstein distance between the validation set and the generator distribution helps detect overfitting. Finally, we use ideas from the one-shot learning literature to develop a novel fast learning critic.

研究の動機と目的

  • 正確な対数確率計算が可能な正規化流れモデルであるReal NVPにおける最尤推定とGANベースの訓練の性能を比較すること。
  • WGAN訓練が、可能性のある劣った尤度を伴ってもMLEよりも高品質なサンプルを生成するかどうかを評価すること。
  • 独立したコーピュトがWasserstein距離を近似することで、過学習の検出やモデル比較に有用であるかを調査すること。
  • 訓練効率を向上させるがサンプル品質を損なわない高速学習コーピュトの開発と評価を行うこと。

提案手法

  • 生成器としてReal NVPを用い、可逆的かつ三角行列のヤコビアンを用いた変換により、正確な対数確率密度を計算可能としている。
  • 同じ生成器アーキテクチャを用いて、MLE(対数尤度の最大化)とWGAN(コーピュトが近似するWasserstein距離の最小化)の両方で訓練を行っている。
  • 検証セット上で、生成器と実データ分布の間のWasserstein距離を推定するために、独立したコーピュトネットワークを採用している。
  • 以前のコーピュトの状態を活用し、勾配計算のオーバーヘッドを低減することで、頻繁な更新が不要な高速学習コーピュトを導入している。
  • 公平な比較を保つために、両訓練法において同一の生成器アーキテクチャ(NVP1, NVP2, NVP3)を用いている。
  • 正確な対数確率密度、視覚的サンプル品質、および独立コーピュトによる近似Wasserstein距離を用いて、結果を検証している。

実験結果

リサーチクエスチョン

  • RQ1WGAN訓練は、対数確率密度が悪い場合でも、Real NVPにおけるMLE訓練よりもより一貫性のあるサンプルを生成するか?
  • RQ2Wasserstein距離を近似するように訓練された独立コーピュトは、MLEおよびWGANで訓練された生成器の両方における過学習を検出できるか?
  • RQ3Real NVPをWGANとMLEで訓練する際、対数確率密度とサンプル品質の間にトレードオフがあるか?
  • RQ4高速学習コーピュトは、流れベースの生成モデルにおける訓練効率を向上させつつ、サンプル品質を劣化させないか?
  • RQ5MLEとWGANの両訓練法において、訓練セットと検証セット間の近似Wasserstein距離はどのように比較されるか?

主な発見

  • WGANで訓練された生成器は、浅いアーキテクチャ(NVP1)であっても、MLEで訓練された生成器よりもよりグローバルに一貫性のあるサンプルを生成しており、構造的生成の向上を示している。
  • WGANで訓練された生成器の負の対数確率密度は、一様分布よりも悪く、尤度がサンプル品質の信頼できる代理指標ではないことを示している。
  • 独立コーピュトによる近似Wasserstein距離が、MLEで訓練された生成器の順序付けを正しく行い、モデル比較に有用であることを実証した。
  • 訓練データと生成器分布の間の近似Wasserstein距離が、検証セットとの距離よりも小さくなったことから、MLEおよびWGAN両方の訓練で過学習が生じていることが示された。
  • 高速学習コーピュトにより、少ないコーピュト更新回数で安定した訓練が可能となり、標準的な訓練と同等の高品質なサンプルが生成された。
  • WGAN生成器のヤコビアンは低ランクであったため、生成された分布が低次元多様体上にあることが示唆され、理論的予測と整合的であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。