[論文レビュー] On the Expressiveness of Approximate Inference in Bayesian Neural Networks
本論文はベイズニューラルネットワークにおける平均場変分推論とモンテカルロドロップアウトを分析し、単一隠れ層ネットの根本的な限界と深いネットの部分的普遍性を示し、実践において経験的病理が持続する。
While Bayesian neural networks (BNNs) hold the promise of being flexible, well-calibrated statistical models, inference often requires approximations whose consequences are poorly understood. We study the quality of common variational methods in approximating the Bayesian predictive distribution. For single-hidden layer ReLU BNNs, we prove a fundamental limitation in function-space of two of the most commonly used distributions defined in weight-space: mean-field Gaussian and Monte Carlo dropout. We find there are simple cases where neither method can have substantially increased uncertainty in between well-separated regions of low uncertainty. We provide strong empirical evidence that exact inference does not have this pathology, hence it is due to the approximation and not the model. In contrast, for deep networks, we prove a universality result showing that there exist approximate posteriors in the above classes which provide flexible uncertainty estimates. However, we find empirically that pathologies of a similar form as in the single-hidden layer case can persist when performing variational inference in deeper networks. Our results motivate careful consideration of the implications of approximate inference methods in BNNs.
研究の動機と目的
- 共通の重み空間近似(MFVIとMCDO)がBNNにおけるベイジアン予測分布をどれだけ正確に捉えるかを評価する。
- 単一隠れ層ネットワークにおけるMFVIとMCDOの関数空間の限界を特徴づける。
- これらの近似の下で深いネットワークにおける平均と分散関数の普遍性結果を確立する。
- 近似推論における病理の実証的証拠を提供し、正確推論(HMC/GP)と対比する。
提案手法
- 1HL ReLUネットワークにおける関数空間でのBNN出力の分散をMFVIとMCDOの下で理論的に分析する(定理1と定理2)。
- MFVIとMCDOを用いた2HL以上のネットワークにおける平均と分散関数の普遍近似結果を証明する(定理3)。
- 無限幅GPとHMCによる正確推論を参照として予測を比較する。
- 浅いネットにおける中間的不確実性病理と過信を実証的に検証する(図3、図5)。
- 不確実性病理の実用影響を評価するため、Naval回帰に関するアクティブラーニングのケーススタディを実施する。
実験結果
リサーチクエスチョン
- RQ1単一隠れ層BNNにおいて、平均場ガウス分布とMCドロップアウトの近似は正確な後方予測不確実性を忠実に表現できるか。
- RQ2深いネットは浅い近似で観察される中間的不確実性病理を緩和または排除するか。
- RQ3平均/分散関数の普遍近似結果がELBOの最適化時に実践的に良い予測後方分布へ翻訳されるか。
- RQ4近似推論病理がアクティブラーニングの性能に与える影響は、正確推論(GP/HMC)と比較してどうか。
主な発見
- 1HL ReLU BNNにおいて、MFVIとMCDOは、完全な後方分布とは異なり、十分に分離した領域間の不確実性の増加を表現できない。
- 深いネットワークにおける平均および分散関数の普遍近似の可能性はこれらの近似であるが、ELBOの最適化は実践上これを実現できないことがある。
- 実証的証拠は、MFVIとMCDOがデータクラスタ間で過信し、低次元回帰で正確推論(GP/HMC)に対して劣ることを示している。
- 近似BNNを用いたアクティブラーニングはGPと比べて著しく劣る場合があり、内部クラスタからのサンプリングに失敗する。
- 深さは役立つ:2HL以上は平均/分散関数を近似できるが、浅い場合と似た病理は深いネットのVI下でも持続することがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。