QUICK REVIEW

[論文レビュー] Model Selection in Bayesian Neural Networks via Horseshoe Priors

Soumya Ghosh, Finale Doshi‐Velez|arXiv (Cornell University)|May 29, 2017

Gaussian Processes and Bayesian Inference参考文献 29被引用数 47

ひとこと要約

この論文では、ノードの事活性化にホースシューピライの導入により、不活性なニューロンをプルーニングすることで、自動的で連続的なモデル選択を可能にする手法を提案する。ホースシューピライの重い尾とスパイクに似た性質を活用し、共有スケールパラメータを介してユニットレベルのスパarsityを誘導することで、過パラメータ化されている場合でさえも、予測精度を損なわず、コンactで高性能なネットワークを実現する。

ABSTRACT

Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. In this work, we apply a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. We demonstrate that our prior prevents the BNN from under-fitting even when the number of nodes required is grossly over-estimated. Moreover, this model selection over the number of nodes doesn't come at the expense of predictive or computational performance; in fact, we learn smaller networks with comparable predictive performance to current approaches.

研究の動機と目的

ベイジアンニューラルネットワークにおけるモデル選択、特に隠れユニット数の選定という未解決問題に取り組む。
予測性能を損なわず、余分なニューロンをプルーニングする計算的に効率的で統計的に有効な手法を開発する。
スパイクアンドスラブピライの離散的・組み合わせ的複雑性を避ける、連続的で微分可能なモデル選択を可能にする。
ノードレベルの重みスケールにホースシューピライを適用することで、強いスパarsityを誘導しつつ、予測精度を維持または向上できることを示す。
ベイジアンニューラルネットワークにおけるネットワーク幅の手動ハイパーパramータサーチのスケーラブルな代替手段を提供する。

提案手法

各ノードに接続する重みの分散にホースシューピライを適用し、層内のユニット間で共有されるグローバルスケールパラメータ $\upsilon_l$ を使用する。
変分推論の安定性を向上させ、局所最適解を減らすために、ホースシューピライの非センタードパrameterizationを用いる。
各ノードの重みベクトル $w_{kl}$ を、スケール $\tau_{kl} \cdot \upsilon_l$ の条件付き正規分布としてモデル化し、$\tau_{kl}$ と $\upsilon_l$ は半コーシー分布に従う。
ホースシューピライの重い尾の性質を活用し、大きな重みは縮小から逃れつつ、小さな重みはゼロに近づくようにすることで、不活性なノードを効果的に無効化する。
完全に因子分解された変分推論近似を用いることで、より大きなネットワークへのスケーリングを実現し、微分可能性と現代のディープラーニングフレームワークとの互換性を維持する。
離散的モデル選択の不確実性を避けるための連続的リラクゼーションを実装し、スパイクアンドスラブモデルと同等のスパarsityを達成する。

実験結果

リサーチクエスチョン

RQ1ノードの事活性化にホースシューピライを適用することで、ベイジアンニューラルネットワークにおける自動的モデル選択を効果的に行えるか？
RQ2層内のノード間でスケールパラメータを共有することで、予測性能を損なわずユニットレベルのスパarsityを実現できるか？
RQ3ネットワークが著しく過パラメータ化されている場合でも、ホースシューピライはアンダーフィッティングを防げるか？
RQ4予測精度と不確実性のキャリブレーションの観点から、ホースシューピライベースのBNNは、VMGといった最先端の変分推論手法と比べてどのように性能を発揮するか？
RQ5この設定において、ホースシューピライの非センタードパラメータ化は、頑健な推論に不可欠か？

主な発見

ホースシューピライは、離散的モデルアンサンブルを必要とせず、連続的で微分可能な正則化により、余分なニューロンをプルーニングすることで、効果的な自動的モデル選択を可能にする。
初期化時に多数のノードを設定しても、HS-BNNはアンダーフィッティングを回避し、コンパクトで高性能なアーキテクチャを学習する。
UCI回帰データセットでは、HS-BNNはVMGと同等または優れた予測性能を達成し、RMSEや対数尤度スコアも同等または良好である。
NavalおよびKin8nmデータセットでは、HS-BNNは予測対数尤度においてVMGを顕著に上回り、それぞれ5.52および1.12のスコアを達成したのに対し、VMGは2.46および1.10であった。
可視化結果から、HS-BNNはより解釈可能なフィルタを学習しており、より強いスパarsityを示し、数字やエッジといった意味のあるパターンに対応するフィルタを生成している。これに対して、スパarsityが低い代替手法とは対照的である。
本手法は計算効率とスケーラビリティを維持しており、離散的スパイクアンドスラブモデルの計算的負担を伴わず、同等のスパarsityを達成できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。