QUICK REVIEW

[論文レビュー] Learning to Draw Samples with Amortized Stein Variational Gradient Descent

Yihao Feng, Dilin Wang|arXiv (Cornell University)|Jul 20, 2017

Generative Adversarial Networks and Image Synthesis参考文献 23被引用数 29

ひとこと要約

この論文は、正規化されていない密度評価と勾配クエリのみを用いて、複雑なターゲット分布からのサンプリングを可能にする、アンモタイズド・スティーン可換勾配降下法（aSVGD）を提案する。反復的にネットワークパラメータをスティーン可換勾配方向に調整することで、推論ネットワークの明示的密度計算を必要とせず、ブラックボックスなサンプリングが可能となり、変分オートエンコーダーにおけるサンプル品質が著しく向上するとともに、MCMCハイパーパramータの適応的学習を可能にする。

ABSTRACT

We propose a simple algorithm to train stochastic neural networks to draw samples from given target distributions for probabilistic inference. Our method is based on iteratively adjusting the neural network parameters so that the output changes along a Stein variational gradient direction (Liu & Wang, 2016) that maximally decreases the KL divergence with the target distribution. Our method works for any target distribution specified by their unnormalized density function, and can train any black-box architectures that are differentiable in terms of the parameters we want to adapt. We demonstrate our method with a number of applications, including variational autoencoder (VAE) with expressive encoders to model complex latent space structures, and hyper-parameter learning of MCMC samplers that allows Bayesian inference to adaptively improve itself when seeing more data.

研究の動機と目的

正規化されていない密度のみで指定される任意のターゲット分布からサンプルを抽出できる、汎用的で微分可能な、確率的ニューラルネットワークの訓練手法を開発すること。
従来の変分推論やMCMCの限界を克服し、推論ネットワークの明示的密度計算を必要としない、エンドツーエンドでアンモタイズドされたサンプリング方策の学習を可能にすること。
オンライン学習、パーソナライズド予測、潜在変数モデリングなど、繰り返しサンプリングを要する状況において、効率的でスケーラブルかつ適応的な確率的推論を可能にすること。
変分オートエンコーダーにおける表現力のある潜在表現およびマルチモーダルな事後分布の学習において、本手法の有効性を示すこと。

提案手法

aSVGDを提案する。これは、ターゲット分布とのKLダイバージェンスを最小化するために、スティーン可換勾配方向に従ってニューラルネットワークパラメータを最適化する、射影勾配に類似したアルゴリズムである。
スティーン可換勾配降下法における関数的勾配の近似に、複数の粒子（サンプル）を用いることで、提案分布のパラメトリックな仮定を必要としない非パラメトリック最適化を実現する。
再パラメトリゼーショントリックとモンテカルロ勾配推定を活用し、出力密度が不正則であっても、確率的ニューラルネットワークをバックプロパゲート可能にする。
多値ベルヌーイドロップアウトノイズを導入することで、VAEにおける表現力のあるエンコーダーの訓練に本手法を適用し、マルチモーダルな事後分布近似を可能にする。
実験において、不偏な対数尤度推定と有効サンプルサイズ（ESS）の評価に、ハミルトニアンアンナールドインポートランスサンプリング（HAIS）を用いる。
推論ネットワークを、入力サンプルとパラメータ勾配へのアクセスのみを要するブラックボックスな微分可能シミュレータとして扱う。出力分布の明示的密度は必要としない。

実験結果

リサーチクエスチョン

RQ1推論ネットワークの明示的密度計算を必要とせず、正規化されていないターゲット分布からの高品質なサンプルを生成できるような確率的ニューラルネットワークの訓練は可能か？
RQ2構造が類似した分布間で一般化可能な、アンモタイズドでエンドツーエンドのサンプリング方策学習を実現するにはどうすればよいか？
RQ3構造的ノイズを用いることで、マルチモーダルな潜在表現を可能にするaSVGDは、変分オートエンコーダーにおける事後分布近似を改善できるか？
RQ4推論ネットワークがより多くのデータで自己改善できるようにすることで、aSVGDはMCMCサンプラーにおけるハイパーパramータの適応的学習を可能にするか？

主な発見

ESteinVAE-fは、バイナライズドMNISTでテスト負対数尤度88.85 natsを達成し、VAE-f（90.32 nats）を上回り、生成品質の向上を示した。
ESteinVAE-CNNは、テストNLLが84.31 natsで、VAE-CNN（84.68 nats）およびEVAE-CNN（84.43 nats）をわずかに上回り、有効サンプルサイズ（86.57 vs. 85.50）も高い水準を維持した。
欠損データ補完において、ESteinVAE-CNNは84%の正確性と0.501のエントロピーを達成し、EVAE-CNN（82%、0.382）およびVAE-CNN（83%、0.340）を上回り、より多様で正確な再構成を示した。
視覚的結果から、ESteinVAE-CNNは曖昧性がある状況でも多様な再構成を生成するが、VAE-CNNおよびEVAE-CNNは、過度に自信を持った対角共分散事後分布のため、局所的モードに収束する傾向にあることが明らかになった。
神経サンプラーがデータ量の増加に伴い自己改善できる仕組みを提供することで、aSVGDは適応的MCMCハイパーパラメータ学習を可能にし、自己向上型ベイズ推論を支援する。
HAIS推定の有効サンプルサイズは、各手法間で同等であったため、NLLの差異が推定バイアスに起因するものではなく、モデル品質の真の向上を反映していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。