QUICK REVIEW

[論文レビュー] Deep Amortized Inference for Probabilistic Programs

Daniel Ritchie, Paul Horsfall|arXiv (Cornell University)|Oct 18, 2016

Bayesian Modeling and Causal Inference参考文献 20被引用数 37

ひとこと要約

この論文では、ニューラルネットワークでガイドされた推論を用いて、複数の推論タスク間の共有構造を活用することで事後分布を近似するパラメトリックなガイドプログラムを学習する、確率的プログラムにおける深層アンモタイズド推論フレームワークを提案する。この手法は、確率的勾配最適化を用いてガイドを訓練し、ベイジアンネットワーク、トピックモデル、およびディープ生成モデルにおいて、従来のサンプリングベースの手法よりも顕著な高速化を実現する、高速かつ正確な推論を可能にする。

ABSTRACT

Probabilistic programming languages (PPLs) are a powerful modeling tool, able to represent any computable probability distribution. Unfortunately, probabilistic program inference is often intractable, and existing PPLs mostly rely on expensive, approximate sampling-based methods. To alleviate this problem, one could try to learn from past inferences, so that future inferences run faster. This strategy is known as amortized inference; it has recently been applied to Bayesian networks and deep generative models. This paper proposes a system for amortized inference in PPLs. In our system, amortization comes in the form of a parameterized guide program. Guide programs have similar structure to the original program, but can have richer data flow, including neural network components. These networks can be optimized so that the guide approximately samples from the posterior distribution defined by the original program. We present a flexible interface for defining guide programs and a stochastic gradient-based scheme for optimizing guide parameters, as well as some preliminary results on automatically deriving guide programs. We explore in detail the common machine learning pattern in which a 'local' model is specified by 'global' random values and used to generate independent observed data points; this gives rise to amortized local inference supporting global model learning.

研究の動機と目的

確率的プログラムにおける事後分布推論の計算的非効率性、特に高コストなサンプリングベースの手法を扱うため。
複数のクエリにわたる真の事後分布を近似する再利用可能なガイドプログラムを学習することで、より高速な推論を実現するため。
ニューラルネットワークを構造化されたガイドプログラムフレームワーク内に埋め込むことで、既存の変分推論アプローチを統合・拡張するため。
mapData抽象化を用いて局所的推論を独立したデータポイント全体にアンモタイズすることで、効率的なグローバルモデル学習を支援するため。
確率的プログラミング言語内でガイドプログラムを定義・最適化するための柔軟で微分可能なインターフェースを提供するため。

提案手法

元の確率的プログラムと同一の制御フローだが、異なるデータフローを持つガイドプログラムを構築し、データフローをニューラルネットワークでパrameter化する。
ガイドは、下界の期待値（ELBO）を最小化するように確率的勾配降下法で最適化され、ガイドパラメータのエンドツーエンド訓練を可能にする。
グローバルモデル変数とローカルデータ固有の変数を分離するための新規なmapData構文を導入し、ミニバッチ処理と勾配推定の分散低減を実現する。
離散および連続の確率的変数をサポートし、離散潜在変数における訓練の安定化を図るための分散低減技術を適用する。
WebPPL確率的プログラミング言語への拡張として実装されており、既存のPPLワークフローとの統合を可能にする。
バックプロパゲーションを確率的計算グラフ全体に適用することで、ガイド内におけるニューラルネットワーク部の勾配ベース最適化を可能にする。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークベースのガイドプログラムは、確率的プログラムにおける事後分布を効率的かつ正確に近似できるか？
RQ2独立同分布（IID）のデータポイントを持つモデル、たとえばトピックモデルやディープ生成モデルに対して、アンモタイズド推論を効果的に適用できるか？
RQ3制御フローは共有されつつも、データフローは学習可能な（ニューラルネットワークを介して）ガイドは、従来のサンプリングベースの推論に比べて、速度と正確性の面でどれほど優れているか？
RQ4提案されたフレームワークは、モデルパラメータとガイドパラメータを統一的な訓練手順でエンドツーエンド最適化できるか？
RQ5離散潜在変数を持つガイドを最適化する際、勾配推定の分散をどのように低減できるか？

主な発見

提案された深層アンモタイズド推論フレームワークは、繰り返し推論クエリが発生する大規模データセットへのスケーリングにおいて、従来のMCMCおよびSMC手法に比べ顕著な高速化を達成した。
mapData構文の使用により、効率的なミニバッチ処理と分散低減が実現され、ガイド最適化の訓練安定性と収束速度が向上した。
ベイジアンネットワーク、トピックモデル、およびディープ生成モデルに対して、ガイドプログラムが正常に学習され、多様なモデルクラスにおいて正確な事後分布近似が実現された。
グローバルモデルパラメータとローカル推論ガイドの両方の共同学習をサポートし、より良いガイドがグローバルモデル学習を向上させるという好循環を実現した。
ベンチマークモデルにおいて競争力のある性能を達成し、神経ネットワークガイド付き推論が、標準的な変分推論ベースラインと同等またはそれを上回る正確性を示した。
予備的な結果では、ガイドネットワークが異なるデータポイントに一般化できており、クエリごとの再計算の必要性が低減され、テスト時の高速推論が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。