QUICK REVIEW

[論文レビュー] Liberty or Depth: Deep Bayesian Neural Nets Do Not Need Complex Weight Posterior Approximations

Sebastian Farquhar, Lewis Smith|arXiv (Cornell University)|Feb 10, 2020

Gaussian Processes and Bayesian Inference被引用数 7

ひとこと要約

この論文は、平均場変分推論がベイジアンニューラルネットワークに対して不適切であるという仮定に挑戦し、平均場重み事後分布を用いた深層ネットワークが、複雑な事後分布を用いた浅層ネットワークと同等の関数空間分布を達成できることを示している。ハミルトニアンモンテカルロを用いた実証的検証および大規模な比較により、より深い平均場モデルが実際には構造的事後分布を上回ることを示しており、理論的に妥当かつ計算効率の良い代替手法であることが明らかになった。

ABSTRACT

We challenge the longstanding assumption that the mean-field approximation for variational inference in Bayesian neural networks is severely restrictive, and show this is not the case in deep networks. We prove several results indicating that deep mean-field variational weight posteriors can induce similar distributions in function-space to those induced by shallower networks with complex weight posteriors. We validate our theoretical contributions empirically, both through examination of the weight posterior using Hamiltonian Monte Carlo in small models and by comparing diagonal- to structured-covariance in large settings. Since complex variational posteriors are often expensive and cumbersome to implement, our results suggest that using mean-field variational inference in a deeper model is both a practical and theoretically justified alternative to structured approximations.

研究の動機と目的

平均場変分推論がベイジアンニューラルネットワークに対してあまりに制限的であるという広く共有された信念に挑戦すること。
単純な平均場重み事後分布を用いた深層アーキテクチャが、複雑な重み事後分布を用いた浅層ネットワークと同等の関数空間分布を達成できるかどうかを調査すること。
小規模モデルにおけるハミルトニアンモンテカルロと大規模モデルにおける共分散構造の比較を用いて、理論的主張を実証的に検証すること。
深層ネットワークにおける平均場変分推論が、計算効率と性能の観点から、複雑な構造的事後分布よりも理論的に正当化されており、実際の性能でも優れていることを示すこと。

提案手法

理論的分析により、深層平均場変分事後分布が、複雑な重み事後分布を用いた浅層ネットワークと同様の関数空間分布を誘導できることを証明した。
小規模モデルにおける真の重み事後分布を検証するためにハミルトニアンモンテカルロが用いられ、平均場推論の近似品質が確認された。
大規模モデルにおいて対角行列と構造的共分散行列を比較し、事後分布の複雑さが与える実用的影響を評価した。
さまざまな事後分布近似の表現能力を評価するために、関数空間の同等性を代理指標として活用した。
理論的結果は、平均場仮定の下での深層ネットワークの関数空間分布の性質を用いて導出された。

実験結果

リサーチクエスチョン

RQ1深層平均場変分事後分布は、複雑な重み事後分布を用いた浅層ネットワークと同等の関数空間分布を生成できるか？
RQ2深層ネットワークにおける平均場近似は、一般的に考えられているように真に制限的であるのか？
RQ3大規模ベイジアンニューラルネットワークにおいて、対角行列と共分散構造を持つ共分散行列は、性能および表現能力の観点でどのように比較できるか？
RQ4ネットワークの深さは、重み事後分布の単純さを補うことで、複雑な関数分布を捉えるのに十分か？

主な発見

深層平均場変分推論は、関数空間分布において、複雑な重み事後分布を用いた浅層ネットワークが誘導するものと、質的・量的に同等のものを作り出している。
ハミルトニアンモンテカルロ分析により、平均場近似が小規模モデルにおける真の事後分布の本質的構造を適切に捉えていることが確認された。
大規模な設定において、対角共分散変分事後分布が、構造的共分散近似よりも、学習効率およびテスト性能の両面で優れていた。
理論的結果から、深さそのものが、平均場近似の単純さを補うことで、豊かな関数空間分布を誘導できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。