Skip to main content
QUICK REVIEW

[論文レビュー] Sticking the Landing: Simple, Lower-Variance Gradient Estimators for Variational Inference

Geoffrey Roeder, Yuhuai Wu|arXiv (Cornell University)|Mar 27, 2017
Domain Adaptation and Few-Shot Learning被引用数 73
ひとこと要約

本論文は、ELBO最適化のための単純で無偏りなパス微分勾配推定量を提案し、再パラメータ化勾配からスコア関数項を除去することで近似後方分布が真の事後分布に近づくほど分散を低減させ、混合モデル、IWAE、フローへと拡張する。

ABSTRACT

We propose a simple and general variant of the standard reparameterized gradient estimator for the variational evidence lower bound. Specifically, we remove a part of the total derivative with respect to the variational parameters that corresponds to the score function. Removing this term produces an unbiased gradient estimator whose variance approaches zero as the approximate posterior approaches the exact posterior. We analyze the behavior of this gradient estimator theoretically and empirically, and generalize it to more complex variational distributions such as mixtures and importance-weighted posteriors.

研究の動機と目的

  • 変分後方分布が厳密に等しい場合に分散がゼロとなる、ELBOの単純で無偏りな勾配推定量を提案する。
  • スコア関数項を除去することが、多くの設定で勾配の分散を低減することを示す。
  • 標準の自動微分ツールと統合できる実装を提供する。
  • 混合分布、重要度重み付き境界、およびフローに基づく事後分布へアプローチを一般化する。
  • 標準ベンチマーク(MNIST、Omniglot)で実証的な改善を示す。

提案手法

  • ELBOの再パラメータ化勾配を再検討し、それをパス微分項とスコア関数項に分解する。
  • スコア関数項を除去して無偏りなパス微分勾配推定量を得ることを提案する。
  • 密度項を評価する際に変分パラメータにstop_gradientを適用することでこの技巧を実装し、勾配計算時にはサンプル z を固定して置く。
  • 混合分布族への推定量の拡張として、離散的な選択を積分化し、各成分のパラメータに stop_gradient を適用する。
  • IWAEへの適用に適応し、フローに基づく事後分布への拡張を(留意点とともに)検討する。

実験結果

リサーチクエスチョン

  • RQ1再パラメータ化勾配からスコア関数項を除去することで、より低分散の無偏りなELBO勾配推定量を構築できるか。
  • RQ2より豊かな変分家族(混合、IWAE、フロー)でパス微分勾配推定量はどう振る舞い、近似が正確なときはどうなるか。
  • RQ3一般的な自動微分フレームワークへ推定量を組み込む際の実装上の留意点は何か。
  • RQ4標準ベンチマーク(MNIST、Omniglot)で、パス微分勾配を用いると総勾配勾配より改善が見られるか。
  • RQ5コントロール変数の概念とスケーリング定数のアニーリングの可能性と推定量の相互作用はどうなるか。

主な発見

  • パス-デリビティブ勾配推定量は無偏りで、q_phi(z|x) が p(z|x) に近づくと分散がゼロに近づく。
  • スコア関数項を除去すると多くのケースで勾配分散が減少し、stop_gradient による計算グラフの1行変更ですむ。
  • この技巧は混合後方分布および重要度重み付き境界(IWAE)にも拡張され、実用的な実装アルゴリズムが提供される。
  • フローに基づく後方分布の場合、中間の z 変数のため、単純な stop_gradient アプローチはより複雑で、必要な勾配項を保持するためのさらなるエンジニアリングが必要。
  • MNISTとOmniglotで、VAEおよびIWAE設定全体でパス-デリビティブ推定量による改善を示し、特により複雑な後方分布で顕著だが、勾配項の相関に応じて改善が見られない場合もある。
  • この手法は引き続き単純で、既存の自動微分ツール(主要フレームワークの stop_gradient など)で実装可能なドロップイン変更のままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。