Skip to main content
QUICK REVIEW

[論文レビュー] Structured and Efficient Variational Deep Learning with Matrix Gaussian Posteriors

Christos Louizos, Max Welling|arXiv (Cornell University)|Mar 15, 2016
Gaussian Processes and Bayesian Inference参考文献 27被引用数 95
ひとこと要約

本稿では、重み行列の行と列の間の相関をモデル化する行列分散ガウス事後分布を用いた変分ベイジアンニューラルネットワークを提案する。これにより、効率的な不確実性推定と一般化性能の向上が可能になる。局所的再パrameterizationトリックと疑似データを活用することで、ガウス過程に類似した挙動を実現し、完全に因子分解された事後分布やドロップアウトよりも回帰および分類タスクで優れた不確実性のキャリブレーションと低い誤差率を達成する。

ABSTRACT

We introduce a variational Bayesian neural network where the parameters are governed via a probability distribution on random matrices. Specifically, we employ a matrix variate Gaussian \cite{gupta1999matrix} parameter posterior distribution where we explicitly model the covariance among the input and output dimensions of each layer. Furthermore, with approximate covariance matrices we can achieve a more efficient way to represent those correlations that is also cheaper than fully factorized parameter posteriors. We further show that with the "local reprarametrization trick" \cite{kingma2015variational} on this posterior distribution we arrive at a Gaussian Process \cite{rasmussen2006gaussian} interpretation of the hidden units in each layer and we, similarly with \cite{gal2015dropout}, provide connections with deep Gaussian processes. We continue in taking advantage of this duality and incorporate "pseudo-data" \cite{snelson2005sparse} in our model, which in turn allows for more efficient sampling while maintaining the properties of the original model. The validity of the proposed approach is verified through extensive experiments.

研究の動機と目的

  • 完全に因子分解された重み事後分布の限界を解消すること。これにより、パラメータ間の相関が捉えられず、不確実性推定が不十分になる。
  • 入力次元と出力次元の両方における重み行列の相関を行列分散ガウス分布を用いてモデル化するスケーラブルな変分推論手法を開発すること。
  • 局所的再パラメータ化トリックを用いて疑似データを組み込むことで、モデルの柔軟性と不確実性のキャリブレーションを向上させつつ、ガウス過程の解釈を維持すること。
  • 回帰および分類ベンチマーク上で本手法を実証的に検証し、既存手法と比較して予測性能と不確実性の定量化が向上することを示すこと。

提案手法

  • 重み行列の事後分布を行列ノルマル分布 p(W) = MN(M, U, V) としてモデル化し、U が行(出力特徴)の相関を、V が列(入力特徴)の相関を捉えるようにする。
  • 行列分散ガウス事後分布に局所的再パラメータ化トリックを適用し、効率的なバックプロパゲーションを可能にするとともに、各層の隠れユニットに対してガウス過程の解釈を可能にする。
  • 各層に対して疑似データペアを導入し、GPに類似した性質を維持するとともに、モデル容量を増加させることなく事後分布の柔軟性を向上させる。
  • 変分推論を用いて近似事後分布と真の事後分布のKLダイバージェンスを最小化する。周辺尤度の tractable な下界を用いる。
  • vec(W) の完全な共分散をパラメータライズするため、Kronecker積構造 (V ⊗ U) を用いることで、完全共分散行列と比較して分散パラメータの数を削減する。
  • 行列分散事後分布と変分ドロップアウトを組み合わせたハイブリッドアプローチを採用し、ドロップアウト率を変分上界によって制約する。

実験結果

リサーチクエスチョン

  • RQ1重み行列の入力および出力特徴間の相関をモデル化することで、ベイジアンニューラルネットワークにおける不確実性推定が向上するか?
  • RQ2行列分散ガウス事後分布は、完全に因子分解された事後分布よりも、より効率的かつ正確に真の事後分布を近似可能か?
  • RQ3局所的再パラメータ化トリックによるガウス過程の解釈が、モデルの柔軟性と予測性能をどの程度向上させるか?
  • RQ4疑似データの導入が、不確実性のキャリブレーションおよび一般化性能に与える影響は何か?
  • RQ5提案手法は、変分ドロップアウトやPBPといった最先端手法を、回帰および分類タスクの両方で上回るか?

主な発見

  • 同じ回帰タスクにおいて、VI、PBP、ドロップアウトの不確実性と比較して、本モデルは顕著に低いRMSEとより高い予測対数尤度を達成し、より優れた予測精度と不確実性のキャリブレーションを示した。
  • 順列不変なMNIST分類タスクにおいて、特に小規模なネットワークアーキテクチャにおいて、最先端手法よりも低い誤差率を達成した。これは、一般化性能の向上を示している。
  • 疑似データを組み込んだ行列ガウス事後分布は、強いGPに類似した性質を維持しており、容量が限られた状況でも柔軟性を保てる。これは、通常、小規模ネットワークで見られる性能の低下を是正する。
  • 完全に因子分解されたガウス事後分布に局所的再パラメータ化トリックを適用した場合、玩具的回帰タスクで著しく性能が劣る。これは、構造的重み事後分布の重要性を示している。
  • 行列ガウスモデルからの予測分布は、ドロップアウトよりも現実的で信頼性の高い信頼区間を提供する。ドロップアウトは、データが少ない領域で過信しすぎている。
  • 完全共分散事後分布と比較して、分散パラメータの数を削減したため、より効率的かつ安定した不確実性推定が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。