[論文レビュー] DVAE++: Discrete Variational Autoencoders with Overlapping Transformations
DVAE++ は離散変分オートエンコーダーにおける重複するスムージング変換を導入し、解析的変分バインドを用いてグローバルなボルツマンマシン事前分布を効率的に学習可能にする。本手法は、離散的グローバル潜在変数と階層的連続的ローカル変数を組み合わせることで、バイナリ化された画像データセットにおいて最先端の対数尤度性能を達成し、Gumbel-Softmax や従来の離散的 VAE より優れた性能を示す。
Training of discrete latent variable models remains challenging because passing gradient information through discrete units is difficult. We propose a new class of smoothing transformations based on a mixture of two overlapping distributions, and show that the proposed transformation can be used for training binary latent models with either directed or undirected priors. We derive a new variational bound to efficiently train with Boltzmann machine priors. Using this bound, we develop DVAE++, a generative model with a global discrete prior and a hierarchy of convolutional continuous variables. Experiments on several benchmarks show that overlapping transformations outperform other recent continuous relaxations of discrete latent variables including Gumbel-Softmax (Maddison et al., 2016; Jang et al., 2016), and discrete variational autoencoders (Rolfe 2016).
研究の動機と目的
- 離散的潜在変数モデルの学習における非微分可能な離散ユニットの課題に対処すること。
- 有向および無向事前分布(ボルツマンマシンを含む)をサポートする連続的リラクゼーション手法を開発すること。
- 従来の研究で必要な複雑な勾配処理を回避する、RBM 事前分布のための解析的変分バインドを導出すること。
- グローバルな離散的要因とローカルな連続的特徴を画像にモデル化する階層的 VAE アーキテクチャ(DVAE++)を設計すること。
- 二値的グローバル潜在変数のみを用いて、ベンチマークデータセットで最先端の生成性能を示すこと。
提案手法
- 共有サポートを持つ2つの分布の混合に基づく、重複するスムージング変換の新クラスを提案する。
- 指数関数的またはロジスティック的混合成分を用いて、ベルヌーイ変数の連続的リラクゼーションを定義する。
- ボルツマンマシン事前分布を備えたモデルのエンドツーエンド学習を可能にする新しい変分バインドを導出する。
- グローバルなRBM事前分布と畳み込み型連続的ローカル潜在変数を備えた階層的VAE、すなわちDVAE++を導入する。
- 対数尤度評価に、非条件付きデコーダーとインポートランス・ウェイトド推定を用いる。
- グローバル潜在変数のための階層的推論ネットワークを1〜4層、空間的各位置に32個の連続的変数を16層で構成する。
実験結果
リサーチクエスチョン
- RQ1重複するスムージング変換は、有向および無向事前分布モデルにおける離散的潜在変数を介した効果的なバックプロパゲーションを可能にするか?
- RQ2本研究で提案するRBM事前分布のための解析的変分バインドは、従来の研究で必要とされた特別な勾配処理を不要にするか?
- RQ3グローバルな離散的事前分布とローカルな連続的潜在変数を備えたVAEは、標準的な画像ベンチマークで最先端の対数尤度を達成できるか?
- RQ4DVAE++ の性能は、Gumbel-Softmax や他の離散的VAEと比較して、尤度および分離性の観点で優れているか?
- RQ5ローカルな連続的潜在変数を除去した場合、グローバルな離散的事前分布の貢献は何か?
主な発見
- 非条件付きデコーダーを用いて、静的バイナライズドMNISTではテストセットの対数尤度が -79.72、動的バイナライズドMNISTでは -79.55 を達成した。
- CIFAR10では、条件付きデコーダーを用いて対数尤度が -79.90 を達成し、従来の離散的VAEを上回った。
- すべての連続的ローカル潜在変数を除去しても、DVAE++ はほぼ最先端の対数尤度を達成しており、グローバルなRBM事前分布の強力さを示している。
- RBM事前分布と指数混合成分を備えたモデルは、Rolfe(2016)の手法で学習した同一アーキテクチャよりも優れた性能を示した。この手法では複雑な勾配処理が必要であった。
- DVAE++ から生成されたサンプルは、グローバルな離散的潜在変数が、数字のクラスやシーン構成といった意味的に意味のある要因を捉えていることを示している。
- 解析的変分バインドにより、制御変数や特別な勾配処理を必要とせず、最適化が簡素化された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。