Skip to main content
QUICK REVIEW

[論文レビュー] Variational inference for Monte Carlo objectives

Andriy Mnih, Danilo Jimenez Rezende|arXiv (Cornell University)|Feb 22, 2016
Generative Adversarial Networks and Image Synthesis参考文献 20被引用数 81
ひとこと要約

この論文は、追加パラメータを必要とせず、各サンプルの学習信号を活用することで分散を低減する、マルチサンプル変分推論目的向けの最初の不偏勾配推定器であるVIMCOを紹介する。これにより、よりタイトなモンテカルロ目的を用いた離散潜在変数をもつモデルの有効な訓練が可能となり、NVILを上回り、実用的に偏りのある推定器と同等の性能を達成する一方で、複雑なモデルのエンドツーエンド訓練を可能にする。

ABSTRACT

Recent progress in deep latent variable models has largely been driven by the development of flexible and scalable variational inference methods. Variational training of this type involves maximizing a lower bound on the log-likelihood, using samples from the variational posterior to compute the required gradients. Recently, Burda et al. (2016) have derived a tighter lower bound using a multi-sample importance sampling estimate of the likelihood and showed that optimizing it yields models that use more of their capacity and achieve higher likelihoods. This development showed the importance of such multi-sample objectives and explained the success of several related approaches. We extend the multi-sample approach to discrete latent variables and analyze the difficulty encountered when estimating the gradients involved. We then develop the first unbiased gradient estimator designed for importance-sampled objectives and evaluate it at training generative and structured output prediction models. The resulting estimator, which is based on low-variance per-sample learning signals, is both simpler and more effective than the NVIL estimator proposed for the single-sample variational objective, and is competitive with the currently used biased estimators.

研究の動機と目的

  • 離散潜在変数をもつモデルをマルチサンプル目的で訓練する際の勾配推定の高分散を緩和すること。
  • NVILとは異なり、学習されたベースラインを必要としない不偏勾配推定器の開発により、サンプル効率の向上を図ること。
  • よりタイトなマルチサンプル変分バウンドを用いて、生成モデルおよび構造的出力予測モデルのエンドツーエンド訓練を可能にすること。
  • マルチサンプル目的と効果的な勾配推定を組み合わせることで、モデル容量の有効活用と尤度の向上が達成されることを示すこと。

提案手法

  • 提案手法VIMCOは、提案分布から得られるK個の独立なサンプルの平均に基づく目的関数向けの、新しい不偏勾配推定器である。
  • NVILで用いられる学習されたベースラインを不要にするために、各サンプルの学習信号を活用し、勾配の分散を低減する。
  • 生成モデルおよび離散潜在変数をもつ構造的出力予測タスクの両方へこの推定器を適用する。
  • 入力データに条件づけられる提案分布を採用することで、サンプル品質の向上と分散の低減を実現する。
  • 再パラメータライゼーションと重要度重み付けを用いて、マルチサンプル下界の勾配を導出し、不偏推定を保証する。
  • 生成モデルと条件付き画像補完タスクの両方において、バイナリ化MNISTデータセット上で手法を評価する。

実験結果

リサーチクエスチョン

  • RQ1ナーブな推定器に起因する高分散を回避しつつ、マルチサンプル変分推論目的向けの不偏勾配推定器を設計可能か?
  • RQ2マルチサンプル目的下で、VIMCOは離散潜在変数をもつモデルの訓練においてNVILを上回るか?
  • RQ3マルチサンプル目的において、学習された提案分布を用いることで、事前分布を用いる場合と比較して性能がどのように変化するか?
  • RQ4マルチサンプル目的が、離散潜在変数をもつモデルにおけるモデル容量の有効活用と尤度の向上にどの程度寄与するか?

主な発見

  • VIMCOは、サンプル数が増加するにつれて、生成モデルおよび構造的出力予測モデルの両方でNVILを一貫して上回った。
  • 50個のサンプルを用いた場合、VIMCOは構造的出力予測タスクで46.1ナツの負の対数尤度を達成し、以前の最高記録である53.8ナツを上回った。
  • 学習された提案分布を用いることで、事前分布を用いた場合と比較して顕著な性能向上が得られ、VIMCOの最悪成績でさえ、事前分布を用いた最良成績を上回った。
  • サンプル数が増えるほど、VIMCOとNVILの性能差が広がり、VIMCOの優れた分散低減能力が裏付けられた。
  • 条件付き画像補完タスクにおいて、VIMCOで訓練されたモデルは、生成されたサンプルからマルチモーダル構造を効果的に捉えていた。
  • VIMCOは偏りのある推定器と同等の性能を達成しながらも、完全に不偏であるため、より信頼性が高く安定した訓練が可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。