[論文レビュー] Generalized Variational Inference: Three arguments for deriving new Posteriors
本論文はベイズ推論を無限次元の最適化として再定式化し、標準 VI がその有限の変分ファミリ内で最適性を持つことを証明し、事前分布、尤度、計算資源の3つのずれに対処するための Rule of Three(RoT)と Generalized Variational Inference(GVI)を導入する。
We advocate an optimization-centric view on and introduce a novel generalization of Bayesian inference. Our inspiration is the representation of Bayes' rule as infinite-dimensional optimization problem (Csiszar, 1975; Donsker and Varadhan; 1975, Zellner; 1988). First, we use it to prove an optimality result of standard Variational Inference (VI): Under the proposed view, the standard Evidence Lower Bound (ELBO) maximizing VI posterior is preferable to alternative approximations of the Bayesian posterior. Next, we argue for generalizing standard Bayesian inference. The need for this arises in situations of severe misalignment between reality and three assumptions underlying standard Bayesian inference: (1) Well-specified priors, (2) well-specified likelihoods, (3) the availability of infinite computing power. Our generalization addresses these shortcomings with three arguments and is called the Rule of Three (RoT). We derive it axiomatically and recover existing posteriors as special cases, including the Bayesian posterior and its approximation by standard VI. In contrast, approximations based on alternative ELBO-like objectives violate the axioms. Finally, we study a special case of the RoT that we call Generalized Variational Inference (GVI). GVI posteriors are a large and tractable family of belief distributions specified by three arguments: A loss, a divergence and a variational family. GVI posteriors have appealing properties, including consistency and an interpretation as approximate ELBO. The last part of the paper explores some attractive applications of GVI in popular machine learning models, including robustness and more appropriate marginals. After deriving black box inference schemes for GVI posteriors, their predictive performance is investigated on Bayesian Neural Networks and Deep Gaussian Processes, where GVI can comprehensively improve upon existing methods.
研究の動機と目的
- ベイズ推論の最適化中心の見方を動機づけ、ベイズの定理を無限次元の最適化問題として表現できることを示す。
- 標準的なベイズ推論の三つの中核的仮定:事前分布、尤度、計算力を緩和するための Rule of Three(RoT)を導入する。
- Generalized Variational Inference (GVI) を RoT の扱いやすい特殊ケースとして定義し、その理論的性質と計算について論じる。
- GVI がベイズ神経網や深いガウス過程のような大規模モデルにおいて頑健な推論と周辺分布の改善をもたらすことを示す。
提案手法
- 損失、発散(ダイバージェンス)、および実現可能解空間(RoT)の3つの引数を持つ確率測度上の最適化として事後推論を定式化する。
- 標準的なベイズ後方分布が特定の目的関数の解として現れ、VI が有限な変分ファミリ内でこの目的関数を最適に解くことに対応する。
- GVI を RoT の特別なケースとして、可行集合が変分ファミリとなるように定義し、代替の損失と発散を用いた可處推論を可能にする。
- 一貫性を含む理論的性質を開発し、GVI を近似ELBOとして解釈し、計算のためのブラックボックス BBGVI を提示する。
- RoT/GVI を Gibbs後方、温調後方、PAC-Bayesian アプローチへリンクする分類法を提供する。
実験結果
リサーチクエスチョン
- RQ1ベイズ推論をどのように無限次元の最適化問題として再定義できるか、そしてこれが標準 VI に対してどのような最適性の結果を与えるか?
- RQ2Rule of Three は事前分布、尤度、計算を緩和することでベイズ推論をどのように一般化し、既存の方法が特別な場合として再現されるか?
- RQ3Generalized Variational Inference (GVI) とは何であり、その理論的性質と実践的な計算戦略は何か?
- RQ4GVI はベイズ神経網や深いガウス過程などの大規模モデルにおいて頑健性と周辺分布の精度を改善できるか?
主な発見
- 標準 VI は無限次元のベイズ目的関数に対してその有限な変分ファミリ内で最適である。
- RoT は priors、likelihoods、computing の仮定を緩和するのに体系的な枠組みを提供し、既存の一般化ベイズ法を統合する。
- GVI は損失、発散、変分ファミリによって定義される大規模で扱いやすい後方のファミリを提供し、理論的保証と近似ELBOとしての解釈を持つ。
- GVI は頑健性と周辺分散の問題に対処でき、ブラックボックス推論スキームを有効にすることで複雑なモデルへの適用範囲を拡大する。
- ベイズ神経網と深いガウス過程への適用は、標準的なベイズ仮定とのずれに対処することで性能改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。