QUICK REVIEW

[論文レビュー] Generative Adversarial Networks as Variational Training of Energy Based Models

Shuangfei Zhai, Yu Cheng|arXiv (Cornell University)|Nov 6, 2016

Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 18

ひとこと要約

本稿では、エネルギー関数モデル（EBM）の変分学習として生成対抗ネットワーク（GAN）を再定式化するVariational GANs（VGANs）を提案する。これにより、MCMCサンプリングを必要とせず、深層EBMの安定した学習が可能になる。負の対数尤度の変分下界を最小化し、遷移ベースの生成器を導入することで、高精細で多様な画像生成と、半教師あり学習における有効なデータ拡張が実現される。

ABSTRACT

In this paper, we study deep generative models for effective unsupervised learning. We propose VGAN, which works by minimizing a variational lower bound of the negative log likelihood (NLL) of an energy based model (EBM), where the model density $p(\mathbf{x})$ is approximated by a variational distribution $q(\mathbf{x})$ that is easy to sample from. The training of VGAN takes a two step procedure: given $p(\mathbf{x})$, $q(\mathbf{x})$ is updated to maximize the lower bound; $p(\mathbf{x})$ is then updated one step with samples drawn from $q(\mathbf{x})$ to decrease the lower bound. VGAN is inspired by the generative adversarial networks (GANs), where $p(\mathbf{x})$ corresponds to the discriminator and $q(\mathbf{x})$ corresponds to the generator, but with several notable differences. We hence name our model variational GANs (VGANs). VGAN provides a practical solution to training deep EBMs in high dimensional space, by eliminating the need of MCMC sampling. From this view, we are also able to identify causes to the difficulty of training GANs and propose viable solutions. \footnote{Experimental code is available at https://github.com/Shuangfei/vgan}

研究の動機と目的

エネルギー関数モデル（EBM）の学習において、計算不能な正規化定数と高次元積分の問題により生じる不安定性と学習困難を解消すること。
生成対抗ネットワーク（GAN）とEBMにおける変分推論の間の原理的つながりを提供し、GANがEBMの変分学習の一形態であることを明らかにすること。
生成器分布における欠落したエントロピー項を特定し、遷移ベースのモデリングによって解決することで、GANにおけるモード崩壊問題を解消すること。
マルコフ連鎖モンテカルロ（MCMC）サンプリングを不要とすることで、高次元空間における深層EBMの実用的かつスケーラブルな学習を可能にすること。
学習された遷移分布を半教師あり学習におけるデータ拡張手法として活用し、少量のラベル付き例での分類精度を向上させること。

提案手法

判別器出力をエネルギー関数と解釈することで、GANをEBMの変分学習に再定式化する：$ E(\mathbf{x}) = -\log D(\mathbf{x}) $、生成器をモデル分布の変分近似とみなす。
EBMの負の対数尤度（NLL）に対する変分下界を導入し、2段階の交互最適化によりこれを最小化する：まず変分分布 $ q(\mathbf{x}) $ を更新し、次に $ q(\mathbf{x}) $ からのサンプルを用いてエネルギー関数 $ E(\mathbf{x}) $ を更新する。
数値的安定性を向上させるとともに、学習中の勾配爆発を防ぐために、有界で明示的にマルチモーダルなエネルギー関数を提案する。
入力 $ \mathbf{x} $ から生成された $ \mathbf{\tilde{x}} $ へのマルコフ遷移をモデル化する遷移ベースの生成器モデル $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ を導入し、これはRBMsにおける対照的分散と類似する。
半教師あり学習において、学習済みの遷移分布 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ をデータ拡張メカニズムとして活用し、入力データの現実的な摂動を生成する。
2段階の訓練手順を採用する：まず、変分下界最適化によりEBMを学習し、次に遷移モデルを用いたGANに類似した設定で生成器と判別器をファインチューニングする。

実験結果

リサーチクエスチョン

RQ1GANは、深層エネルギー関数モデルの学習における変分推論の一形態として解釈可能か？
RQ2標準GANにおける学習の不安定性とモード崩壊の原因は何か？これらは生成器分布における欠落したエントロピー項に起因するのか？
RQ3高次元空間において、MCMCサンプリングを用いずに、EBMにおける計算不能な正規化定数を効果的に取り扱う方法はあるか？
RQ4学習された遷移分布 $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ は、データ多様体を効果的にモデル化し、現実的で多様なサンプルを生成できるか？
RQ5学習された遷移モデルは、半教師あり分類性能の向上を目的としたデータ拡張戦略として、どの程度有効に機能するか？

主な発見

VGANsは、MCMCサンプリングを必要とせず、高次元画像空間における深層EBMの安定的かつ効果的な学習に成功した。
提案された有界でマルチモーダルなエネルギー関数は、学習の安定性を著しく向上させ、勾配爆発を防止した。
遷移ベースの生成器モデル $ p_z(\mathbf{\tilde{x}}|\mathbf{x}) $ は、エントロピー項の変分近似を組み込むことで、モード崩壊を効果的に緩和した。
MNISTとSVHNの実験では、学習済みの遷移モデルをデータ拡張に用いることで、ベースライン比でテスト誤差率がMNIST-1000で最大1.7%、SVHN-1000で18%低下し、複数の設定で一貫した向上が得られた。
学習済みの遷移モデルを用いたマルコフ連鎖サンプリングにより、画像間を滑らかで現実的な遷移が得られ、効果的なデータ多様体学習が示された。
MNIST、CIFAR10、SVHNの画像生成品質と多様性において、最先端の性能を達成し、シャープで現実的なサンプルを生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。