Skip to main content
QUICK REVIEW

[論文レビュー] Variational Inference with Normalizing Flows

Danilo Jimenez Rezende, Shakir Mohamed|arXiv (Cornell University)|May 21, 2015
Model Reduction and Neural Networks参考文献 34被引用数 1,425
ひとこと要約

この論文では、変分推論における高機能でスケーラブルな近似事後分布を構築するためにノーマライジングフローを提案している。従来の平均場法や構造的アプローチよりも洗練された事後分布の近似が可能になる。単純なベース密度(例:正規分布)に可逆的で自己回帰的な変換を適用することで、よりタイトな変分下界が達成され、MNISTおよびCIFAR-10におけるテスト尤度が体系的に向上する。さらに、フローデプスを深くすることで性能が単調に向上する。

ABSTRACT

The choice of approximate posterior distribution is one of the core problems in variational inference. Most applications of variational inference employ simple families of posterior approximations in order to allow for efficient inference, focusing on mean-field or other simple structured approximations. This restriction has a significant impact on the quality of inferences made using variational methods. We introduce a new approach for specifying flexible, arbitrarily complex and scalable approximate posterior distributions. Our approximations are distributions constructed through a normalizing flow, whereby a simple initial density is transformed into a more complex one by applying a sequence of invertible transformations until a desired level of complexity is attained. We use this view of normalizing flows to develop categories of finite and infinitesimal flows and provide a unified view of approaches for constructing rich posterior approximations. We demonstrate that the theoretical advantages of having posteriors that better match the true posterior, combined with the scalability of amortized variational approaches, provides a clear improvement in performance and applicability of variational inference.

研究の動機と目的

  • 単純な事後分布近似(例:平均場法)がモデルの精度を制限し、複雑な事後分布構造を捉えられることの制限を解消すること。
  • 真の事後分布の複雑さに適合できるスケーラブルで柔軟な事後分布近似フレームワークを構築すること。
  • 豊富な事後分布推定の既存手法を、ノーマライジングフロー形式で統一すること。
  • フローデプスを深くすることで、体系的に優れた事後分布近似と、ベンチマークデータセットにおける尤度の向上が達成されることを示すこと。

提案手法

  • 単純なベース密度(例:正規分布)を、可逆的で微分可能な変換の系列であるノーマライジングフローによって、複雑で柔軟な事後分布近似に変換する。
  • 推論ネットワークを用いてアモアタイズド変分推論を実装し、フロー変換をパrameter化することで、効率的でスケーラブルな学習を可能にする。
  • 変換下での有効な確率密度を保証するため、ヤコビアン行列式の対数項を含む修正された変分下界を導出する。
  • 連続的ノーマライジングフローを導入し、十分な深さで真の事後分布に漸近的に収束することを可能にする。
  • 計算効率と可逆性を維持するために、カップリングレイヤー(例:RealNVPスタイル)を用いてフロー変換を適用する。
  • エンドツーエンドの学習のため、モンテカルロ勾配推定を用いる。

実験結果

リサーチクエスチョン

  • RQ1ノーマライジングフローは、平均場法や構造的変分近似の代替として、スケーラブルで柔軟な選択肢を提供できるか?
  • RQ2ノーマライジングフローの深さを増すことで、体系的に優れた事後分布近似と向上したモデル尤度が得られるか?
  • RQ3無限小のノーマライジングフローは、十分な深さで真の事後分布を漸近的に回復できるか?これは古典的変分推論の主要な限界を克服する。
  • RQ4NICE や HVI や DARN といった他の先進的手法と比較して、フローに基づく事後分布はテスト尤度および推論品質においてどのように差をつけるか?

主な発見

  • バイナリ化MNISTでは、フローデプスをK=10からK=80に増加させることで、テストセットの負の対数尤度が≤87.5から≤85.1に低下し、複雑さに伴う一貫した改善が確認された。
  • K=80のDLGM+NFモデルは、テスト負の対数尤度≤85.1を達成し、NICEベースのベースライン(≤87.2)およびHVIベースライン(8 leapfrogステップで85.51)を上回った。
  • CIFAR-10では、フローデプスをK=0からK=10に増加させることで、テスト負の対数尤度が-293.7から-320.7に低下し、強い単調な改善が示された。
  • K=10のフローサイズでCIFAR-10におけるテスト尤度は-320.7を達成し、同等のモデルアーキテクチャを用いたDARNモデル(適応的ノイズ付き、84.13)を上回った。
  • 理論的分析により、無限小のフローは漸近的状態で真の事後分布を回復可能であることが示され、変分推論に対する長年の批判を解消した。
  • このフレームワークは、単一のノーマライジングフロー形式で、さまざまな柔軟な事後分布近似手法を統一し、共通する構造的原則を明らかにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。