Skip to main content
QUICK REVIEW

[論文レビュー] A Contrastive Divergence for Combining Variational Inference and MCMC

Francisco J. R. Ruiz, Michalis K. Titsias|arXiv (Cornell University)|May 10, 2019
Generative Adversarial Networks and Image Synthesis被引用数 24
ひとこと要約

本稿では、変分ベイズ推論とマルコフ連鎖モンテカルロ(MCMC)サンプリングを組み合わせることで、計算可能で最適化可能な変分推論を可能にする、新しい発散である変分対照的発散(VCD)を提案する。初期の変分分布をMCMCステップで改善し、そのVCD目的関数を最適化することで、VAE やロジスティック行列分解などの潜在変数モデルにおいて、標準的な変分推論や先行のMCMC-変分ハイブリッド手法よりも優れた予測性能を達成する。

ABSTRACT

We develop a method to combine Markov chain Monte Carlo (MCMC) and variational inference (VI), leveraging the advantages of both inference approaches. Specifically, we improve the variational distribution by running a few MCMC steps. To make inference tractable, we introduce the variational contrastive divergence (VCD), a new divergence that replaces the standard Kullback-Leibler (KL) divergence used in VI. The VCD captures a notion of discrepancy between the initial variational distribution and its improved version (obtained after running the MCMC steps), and it converges asymptotically to the symmetrized KL divergence between the variational distribution and the posterior of interest. The VCD objective can be optimized efficiently with respect to the variational parameters via stochastic optimization. We show experimentally that optimizing the VCD leads to better predictive performance on two latent variable models: logistic matrix factorization and variational autoencoders (VAEs).

研究の動機と目的

  • MCMCサンプリング後に真の後退分布が暗黙的に定義される状況において、変分推論を最適化する課題に対処すること。
  • MCMCで改善された分布の密度が計算不能であるにもかかわらず、計算可能で微分可能な目的関数を構築し、変分パラメータの確率的最適化を可能にすること。
  • 変分推論の効率性とアンモアタイゼーションの利点を保ちつつ、MCMCによる改善を活用することで、潜在変数モデルにおける予測性能を向上させること。
  • 対称化KL発散に漸近的に収束する理論的根拠を持つ発散を提供すること。また、最適化に不偏勾配推定を可能にする。

提案手法

  • 初期の変分分布とそのMCMCによる改善版との間の乖離を測る、変分対照的発散(VCD)という発散を提案する。真の後退分布との乖離ではなく、初期の変分分布とMCMCで改善されたバージョンとの乖離を測る。
  • 固定回数のMCMCステップ(例:HMC)を用いて初期の変分提案分布を改善し、密度が計算不能な暗黙的で改善された分布を生成する。
  • MCMCチェーンからのサンプルを用いて、VCD勾配の不偏モンテカルロ推定器を導出する。これにより、変分パラメータの確率的最適化が可能になる。
  • 確率的勾配降下法を用いてVCD目的関数を最適化する。MCMCサンプルが変分パラメータの更新にフィードバックを提供する。
  • 対照的学習戦略を採用する。VCD目的関数は、現在の変分分布からMCMCチェーンを走らせる中で、変分パラメータに関して最小化される。
  • アモアタイゼーション推論の文脈に適用する。各観測値の局所的潜在変数の後退分布を、グローバルな変分族を用いて迅速に近似する。

実験結果

リサーチクエスチョン

  • RQ1MCMCサンプリングによって暗黙的に定義される改善後退分布に対して、変分パラメータの最適化を可能にする理論的根拠を持つ発散を定義できるか?
  • RQ2VCD目的関数を介してMCMCの改善と変分推論を組み合わせることで、標準的な変分推論や先行のMCMC-変分ハイブリッド手法よりも優れた予測性能が得られるか?
  • RQ3MCMCステップ数が、VCDベースの推論の性能と計算コストにどのように影響するか?
  • RQ4少ないMCMCステップ数であっても、VCDは異なるモデルやデータセットに対して安定的かつ効率的な最適化をサポートできるか?
  • RQ5VCDは、無限大のMCMCステップの極限において、対称化KL発散に漸近的に収束する有効な発散であるか?理論的整合性が保証されるか?

主な発見

  • 標準的な変分推論やHoffman(2017)の手法と比較して、MNISTおよびFashion-MNISTデータセットにおいて、VCD目的関数を最適化することで、テスト尤度が著しく向上した。
  • わずか2ステップのMCMCでも、標準的な変分推論を上回るテスト尤度を達成しており、MCMCの改善による即時の利点が示された。
  • MCMCステップ数を増やすにつれて性能が単調に向上し、8ステップで最高の結果が得られた。これにより、長いチェインの利点が裏付けられた。
  • VCDアルゴリズムの計算コストはMCMCステップ数に比例して増加するが、追加計算を伴うにもかかわらず、Hoffman(2017)の手法よりもわずかに高速で、最適化は安定したままだった。
  • VCDは不偏勾配推定をサポートしており、信頼性の高い確率的最適化を可能にした。また、異なるモデルやデータセットに対してもロバストであることが確認された。
  • VCDは、無限大のMCMCステップの極限において、初期の変分分布と真の後退分布の間の対称化KL発散に漸近的に収束する。これにより、理論的整合性が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。