[論文レビュー] Bayesian Neural Network Priors Revisited
本論文は SGD で学習したニューラルネットワークを経験的に分析し、重み分布のパターンを特定するとともに、アーキテクチャとタスクに依存する先行分布(FCNN には重尾、CNN/ResNet には相関ガウス分布)を提案して、ベイジアン NN の性能を向上させ、コールドポスターミス効果に対処する。
Isotropic Gaussian priors are the de facto standard for modern Bayesian neural network inference. However, it is unclear whether these priors accurately reflect our true beliefs about the weight distributions or give optimal performance. To find better priors, we study summary statistics of neural network weights in networks trained using stochastic gradient descent (SGD). We find that convolutional neural network (CNN) and ResNet weights display strong spatial correlations, while fully connected networks (FCNNs) display heavy-tailed weight distributions. We show that building these observations into priors can lead to improved performance on a variety of image classification datasets. Surprisingly, these priors mitigate the cold posterior effect in FCNNs, but slightly increase the cold posterior effect in ResNets.
研究の動機と目的
- 現代のニューラルネットワークにおける実際の重み分布を反映するベイズ的先行分布を動機づける。
- SGD で学習した FCNN、CNN、ResNet の経験的重み分布を特徴づける。
- 経験的知見に基づく代替先行分布(重尾、相関ガウス)を提案・評価する。
- 異なる先行分布が予測性能とコールドポ스타効果に与える影響を評価する。
- 多様な先行分布を用いたベイズ NN 推論を促進する再利用可能な PyTorch ライブラリを提供する。
提案手法
- 等方性ガウス先行分布と重尾(ラプラス分布、Student-t)および相関ガウス先行分布を比較する。
- MNIST および CIFAR-10 で SGD 学習済み FCNN、CNN、ResNet の重み分布を経験的に分析する。
- SGD 解に分布を適合させ、尾部挙動と CNN フィルター内の空間相関を検査する。
- 勾配誘導モンテカルロとサイクル学習率を用いた SG-MCMC を用いて、異なる先行分布の下で事後分布を近似する。
- 先行分布とアーキテクチャ間で予測性能、キャリブレーション、OOD検出を評価する。
- ベイズ NN 推論のための先行分布に関する公開可能な PyTorch ライブラリを提供する。
実験結果
リサーチクエスチョン
- RQ1SGD 学習済み FCNN、CNN、ResNet は、代替先行分布を正当化する非ガウス分布の重みを示すか?
- RQ2アーキテクチャ固有の重み相関構造(例:CNN における空間相関)が先行分布に組み込まれるべきか?
- RQ3重尾または相関のある先行分布は、等方ガウス先行分布と比較してベイズ NN の性能を改善するか?
- RQ4選択された先行分布は、FCNN、CNN、ResNet におけるコールドポスタ効果にどう影響するか?
- RQ5データ拡張は事前分布の誤指定と相互作用して事後推論に影響を与えるか?
主な発見
- FCNN の重みは重尾傾向を示すことが多く、性能向上には重尾先行がより適している。
- CNN および ResNet の重みは畳み込みフィルター内で有意な空間相関を示す。
- 重尾先行はベイズ型 FCNN の性能を向上させ、FCNN におけるコールドポスター効果を低減する。
- 相関ガウス先行は、等方先行と比較してベイズCNNおよびResNet の性能を改善するが、コールドポスター効果への影響はアーキテクチャとタスクによって異なる。
- FCNN では重尾先行がコールドポスター効果を緩和することがある一方、ResNet では一部データセットで相関先行下で効果が増幅される可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。