QUICK REVIEW

[論文レビュー] Variational Gaussian Dropout is not Bayesian

Jiri Hron, Alexander Matthews|arXiv (Cornell University)|Nov 8, 2017

Gaussian Processes and Bayesian Inference参考文献 10被引用数 29

ひとこと要約

この論文は、変分ガウスドロップアウトがベイジアン推論として提示されていながらも、不適切な対数一様事前分布によって不適切な事後分布を引き起こすため、有効なベイジアン学習ではないことを示している。著者らは、擬似KLダイバージェンスの正確な解析的表現を導出し、この手法が高分散の事後分布を好むことを示し、後続の研究で導入された加法的パrametrizationが、元の乗法的定式化に存在しなかった偽の極小値を導入することを明らかにした。

ABSTRACT

Gaussian multiplicative noise is commonly used as a stochastic regularisation technique in training of deterministic neural networks. A recent paper reinterpreted the technique as a specific algorithm for approximate inference in Bayesian neural networks; several extensions ensued. We show that the log-uniform prior used in all the above publications does not generally induce a proper posterior, and thus Bayesian inference in such models is ill-posed. Independent of the log-uniform prior, the correlated weight noise approximation has further issues leading to either infinite objective or high risk of overfitting. The above implies that the reported sparsity of obtained solutions cannot be explained by Bayesian or the related minimum description length arguments. We thus study the objective from a non-Bayesian perspective, provide its previously unknown analytical form which allows exact gradient evaluation, and show that the later proposed additive reparametrisation introduces minima not present in the original multiplicative parametrisation. Implications and future research directions are discussed.

研究の動機と目的

先行研究で提示された変分ガウスドロップアウトのベイジアン解釈に挑戦すること。
変分ドロップアウトで用いられる対数一様事前分布が不適切な事後分布を引き起こし、ベイジアン推論を不適切にすることを示すこと。
変分事後分布と不適切な事前分布との間の擬似KLダイバージェンスの正確な解析的表現を提供すること。
[10]で導入された再パrametrizationが、元の[6]の定式化と比較して最適化の多様性を変えることの証明。
変分ドロップアウトを解釈可能な最適化ダイナミクスを持つ非ベイジアン正則化最大尤度推定手順として再定式化すること。

提案手法

ディガミ関数およびクーマー関数を用いて、ガウス変分事後分布と対数一様事前分布との間のKLダイバージェンスの正確な解析的表現を導出する。
ダウソン積分を用いて、擬似KLの連続的かつ微分可能な勾配表現を導入し、正確な勾配計算を可能にする。
乗法的パrametrization (θ, α) と加法的パrametrization (μ, σ²) の下での目的関数の振る舞いを分析し、両者が同等でないことを示す。
擬似KLがパrameter u = μ²/(2σ²) に関して厳密に増加することを証明し、最小化が σ² → ∞ または μ = 0 を好むことを示唆する。
相関する重みノイズ近似が、不適切な事前分布と組み合わせると、無限大のKLダイバージェンスを有する退化した事後分布をもたらすことを示す。
ELBO最適化を、ベイジアン推論ではなく、標準でない測度におけるペナルティ付き最大尤度推定として再解釈する。

実験結果

リサーチクエスチョン

RQ1変分ガウスドロップアウトで用いられる対数一様事前分布は、ベイジアンニューラルネットワークにおける適切な事後分布をもたらすか？
RQ2不適切な事前分布が用いられている場合、変分ドロップアウトの目的関数は意味的に近似ベイジアン推論として解釈可能か？
RQ3パrametrizationの選択（乗法的対比加法的）が最適化の多様性と得られるモデルのスパarsityに与える影響は何か？
RQ4ガウス事後分布と対数一様事前分布との間のKLダイバージェンスの正確な解析的表現は何か？
RQ5この設定下でのELBOの最適化は、well-definedな統計的推定手続きに対応するか？

主な発見

対数一様事前分布は、標準的なニューラルネットワーク尤度関数において不適切な事後分布を引き起こし、ベイジアン推論を不適切に定式化する。
事後分布の正規化定数は、w = 0 の近傍および尾部の積分により無限大であることが示された。
相関する重みノイズ近似が不適切な事前分布と組み合わさると、無限大のKLダイバージェンスを有するため、ベイジアン解釈は無効である。
ディガミ関数およびクーマー関数を用いて、擬似KLダイバージェンスの正確な解析的表現が導出され、正確な勾配計算が可能になった。
目的関数は u = μ²/(2σ²) に関して厳密に増加するため、最小化は高い事後分散またはゼロ平均を好む。
[10]で導入された加法的パrametrizationは、元の乗法的定式化に存在しなかった新たな極小値を導入しており、報告されたスパarsityの差異を説明できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。