QUICK REVIEW

[論文レビュー] Discrete Variational Autoencoders

Jason Tyler Rolfe|arXiv (Cornell University)|Sep 7, 2016

Generative Adversarial Networks and Image Synthesis参考文献 47被引用数 44

ひとこと要約

本稿では、非方向的で離散的な潜在変数（制限ボルツマンマシンでモデル化）と階層的な連続的潜在変数を組み合わせた、確率的モデルの新しいクラス、離散変分オートエンコーダー（離散VAE）を紹介する。再パラメータ化トリックを離散分布に適応させることで、離散変数を通過するバックプロパゲーションを可能にし、タイトな証拠下限（ELBO）を達成した。この手法は、順列不変なMNIST、Omniglot、Caltech-101シルエットにおいて、最先端のモデルを上回り、教師なしでオブジェクトクラスとピクセルレベルの詳細を両方学習する。

ABSTRACT

Probabilistic models with discrete latent variables naturally capture datasets composed of discrete classes. However, they are difficult to train efficiently, since backpropagation through discrete variables is generally not possible. We present a novel method to train a class of probabilistic models with discrete latent variables using the variational autoencoder framework, including backpropagation through the discrete latent variables. The associated class of probabilistic models comprises an undirected discrete component and a directed hierarchical continuous component. The discrete component captures the distribution over the disconnected smooth manifolds induced by the continuous component. As a result, this class of models efficiently learns both the class of objects in an image, and their specific realization in pixels, from unsupervised data, and outperforms state-of-the-art methods on the permutation-invariant MNIST, Omniglot, and Caltech-101 Silhouettes datasets.

研究の動機と目的

従来の変分オートエンコーダー枠組みでは離散変数を通過するバックプロパゲーションが不可能であるため、離散潜在変数を有する確率的モデルの学習に挑戦すること。
複数の分離された滑らかな多様体（例えば、異なるオブジェクトクラスの画像）から成るデータセットを、離散的なクラスレベル要因と連続的で変形可能な実現に分離してモデル化すること。
離散潜在変数を有するモデルにおける後方推論の不確実性にもかかわらず、タイトな証拠下限（ELBO）を維持する手法を開発すること。
階層的後方近似を用いて、離散的および連続的潜在変数を併用するモデルを、効率的かつエンドツーエンドで学習可能とすること。
特にオブジェクトの識別と詳細な視覚的変動を両方捉える点で、教師なし表現学習ベンチマークにおいて優れた性能を示すこと。

提案手法

モデルのアーキテクチャは、二部グラフ型制限ボルツマンマシン（RBM）を離散潜在層とし、その後に複数の連続的潜在変数層を配置することで、階層的生成モデルを構築する。
離散潜在変数間の強い相関をモデル化するために、階層的後方近似が用いられ、タイトな証拠下限（ELBO）を保証する。
条件付き周辺分布の逆累積分布関数（逆CDF）を用いることで、離散分布に再パラメータ化トリックを適応し、離散サンプルを通した勾配推定を可能にする。
一様乱数変数の微分可能な変換により、離散潜在状態に変換することで、離散層を通過するバックプロパゲーションを実現する。
生成フェーズでは、RBM事前分布からのサンプリングに、持続的マルコフ連鎖（persistent Markov chains）が用いられ、安定なモード探索とサンプル間の一貫性を実現する。
モデルは、再パラメータ化サンプリングによるオートエンコーディング項と、解析的または近似されたKL項を用いて、ELBOの確率的最適化により学習される。

実験結果

リサーチクエスチョン

RQ1変分オートエンコーダー枠組みにおいて、離散潜在変数にバックプロパゲーションを効果的に適用できるか？
RQ2階層的後方近似は、離散潜在変数を有するモデルにおいて、タイトな証拠下限（ELBO）を維持できるか？
RQ3離散的および連続的潜在変数を併用するハイブリッドモデルは、教師なし学習において、オブジェクトクラスと詳細な視覚的変動を両方効果的に捉えることができるか？
RQ4MNIST、Omniglot、Caltech-101シルエットのような複数の分離された多様体を有するデータセットに、このモデルはどれほど一般化できるか？
RQ5教師なしで、明確に分離され、解釈可能なモードが離散潜在空間に学習されるのか？

主な発見

200個のバイナリ潜在変数を用いた静的バイナリ化MNISTでは、離散VAEが-97.0の負の対数尤度を達成し、以前のモデルを上回った。
Omniglotデータセットでは、RBM事前分布に明確に分離されたモードが学習され、100ステップのギブスサンプリングを経ても一貫した数字のような生成が得られた。
Caltech-101シルエットでは、クラスラベルなしでも、大きな凸型の形状に対応する明確なモードが同定された。
RBM事前分布における持続的ギブスサンプリングにより、安定でマルチモーダルな構造が明らかになり、離散潜在空間が意味のあるオブジェクトクラスを捉えていることが示された。
階層的後方近似は、因子化された後方分布と比較して、特に離散変数間の複雑な依存関係をモデル化する際に、ELBOのタイトさを顕著に向上させた。
本手法により、離散潜在変数を有するモデルのエンドツーエンド学習がバックプロパゲーションを用いて可能となり、離散分布における変分推論の主要な制限を克服した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。