Skip to main content
QUICK REVIEW

[論文レビュー] Deep Generative Stochastic Networks Trainable by Backprop

Yoshua Bengio, Eric Laufer|arXiv (Cornell University)|Jun 5, 2013
Generative Adversarial Networks and Image Synthesis参考文献 39被引用数 239
ひとこと要約

この論文は、データ分布を直接モデル化するのではなく、マルコフ連鎖の遷移作用素を学習することによって深層生成モデルを訓練するフレームワーク、生成的確率的ネットワーク(GSNs)を紹介している。バックプロパゲーションを用いたノイズ除去オートエンコーダー風の学習により、密度推定を単一モードの条件付き分布の近似によって簡素化し、計算が困難な正規化定数を必要とせず、MNISTおよびTFDデータセットで最先端の対数尤度境界を達成する。

ABSTRACT

We introduce a novel training principle for probabilistic models that is an alternative to maximum likelihood. The proposed Generative Stochastic Networks (GSN) framework is based on learning the transition operator of a Markov chain whose stationary distribution estimates the data distribution. The transition distribution of the Markov chain is conditional on the previous state, generally involving a small move, so this conditional distribution has fewer dominant modes, being unimodal in the limit of small moves. Thus, it is easier to learn because it is easier to approximate its partition function, more like learning to perform supervised function approximation, with gradients that can be obtained by backprop. We provide theorems that generalize recent work on the probabilistic interpretation of denoising autoencoders and obtain along the way an interesting justification for dependency networks and generalized pseudolikelihood, along with a definition of an appropriate joint distribution and sampling mechanism even when the conditionals are not consistent. GSNs can be used with missing inputs and can be used to sample subsets of variables given the rest. We validate these theoretical results with experiments on two image datasets using an architecture that mimics the Deep Boltzmann Machine Gibbs sampler but allows training to proceed with simple backprop, without the need for layerwise pretraining.

研究の動機と目的

  • 確率的モデルにおける計算が困難な正規化定数のため、深層教師なしモデルの学習が困難であるという課題に対処すること。
  • 教師あり学習に類似した関数近似問題に変換することで、教師なし密度推定を訓練フレームワークに統合すること。
  • 階層的前処理やMCMCサンプリングを必要とせず、標準的なバックプロパゲーションを用いて深層生成モデルのエンドツーエンド学習を可能にすること。
  • マルコフ連鎖状態に潜在変数を組み込むことで、モデルの混合性と表現学習を向上させること。
  • RBM や DBM などの既存モデルと同等またはそれ以上の性能を示すように、画像データセットにおけるフレームワークの妥当性を検証すること。

提案手法

  • GSNフレームワークは、マルコフ連鎖の遷移作用素を学習することでデータ分布をモデル化し、各ステップで条件付き分布 $ P_{\theta}(X|\tilde{X}) $ からのサンプリングが行われる。ここで $ \tilde{X} $ は $ X $ のノイズ入りバージョンである。
  • この手法は、入力 $ X $ を $ \tilde{X} $ にノイズを加えて破損させ、その後 $ \tilde{X} $ から $ X $ を再構築するという、ノイズ除去オートエンコーダーに類似したメカニズムを用いる。これにより、真のデータ分布よりも単純(単峰性)な条件付き分布を学習し、密度推定を簡素化する。
  • 潜在変数 $ H $ を含める一般化により、マルコフ連鎖状態に観測変数 $ X $ と潜在変数 $ H $ の両方が含まれるようになり、より豊かな表現とより簡単な混合性が可能になる。
  • 再構築対数尤度の目的関数に基づき、バックプロパゲーションによる学習が行われ、勾配が効率的に計算可能である。このタスクは、勾配を効率的に計算できる教師あり学習問題として扱われる。
  • 学習率の減少とモーメンタムを用いた確率的勾配降下法を用い、階層的前処理を一切行わず、学習が行われる。
  • 生成されたサンプルを用いたパルゼン密度推定器を用いてモデルの品質を評価し、真の対数尤度の下界が得られる。

実験結果

リサーチクエスチョン

  • RQ1計算が困難な正規化定数を避けるために、マルコフ連鎖の遷移作用素を学習することで、深層生成モデルを訓練できるか?
  • RQ2真のデータ分布 $ P(X) $ よりも単純な条件付き分布 $ P_{\theta}(X|\tilde{X}) $ を学習することで、バックプロパゲーションによるより効果的な学習が可能になるか?
  • RQ3マルコフ連鎖状態に潜在変数 $ H $ を組み込むことで、表現力と混合効率が向上するか?
  • RQ4対数尤度とサンプル品質の観点から、RBM や DBM や DBN などの既存モデルと比較して、GSNの性能はどの程度か?
  • RQ5標準的なバックプロパゲーションを用いてエンドツーエンドで学習可能であり、画像データセットにおいて高速な収束性と良好な一般化性能を達成できるか?

主な発見

  • 2層のGSNは、MNISTテストセットで214 ± 1.1のパルゼン対数尤度下界を達成し、1層のノイズ除去オートエンコーダー(−152 ± 2.2)を著しく上回り、DBN や DBM などのより深いモデルと同等またはそれ以上の性能を示した。
  • 2層のGSNは、2隠れ層のDBN(138 ± 2)と3隠れ層のDBM(32 ± 2)を上回り、優れたサンプル品質と尤度推定性能を示した。
  • TFDデータセットでは、GSNが1890 ± 29のパルゼン対数尤度下界を達成し、2隠れ層のDBN(1908 ± 66)と同等の性能を示し、異なる画像分布に対しても優れた性能を発揮した。
  • 生成されたサンプルは高速な混合性と高いシャープネスを示し、25エポック以内で視覚的品質が著しく向上した。これは収束が速いことを示している。
  • 条件付きサンプリングの実験では、GSNが欠損した入力(例:画像の左半分)を確率的に補完でき、学習済みの条件付き分布と整合した妥当な補完を生成した。
  • フレームワークにより、階層的前処理や明示的なMCMCサンプリングを一切行わず、バックプロパゲーションのみに依存したエンドツーエンド最適化が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。