[論文レビュー] Functional Variational Bayesian Neural Networks
本論文は関数上の変分ベイズニューラルネットワーク(fBNN)を提案し、重みの分布ではなく関数上で変分推論を行い、関数空間のELBOと有限な測定セットを用いてKL発散を近似することで、構造化事前分布と大規模なスケーラブルで信頼できる不確実性推定を実現する。
Variational Bayesian neural networks (BNNs) perform variational inference over weights, but it is difficult to specify meaningful priors and approximate posteriors in a high-dimensional weight space. We introduce functional variational Bayesian neural networks (fBNNs), which maximize an Evidence Lower BOund (ELBO) defined directly on stochastic processes, i.e. distributions over functions. We prove that the KL divergence between stochastic processes equals the supremum of marginal KL divergences over all finite sets of inputs. Based on this, we introduce a practical training objective which approximates the functional ELBO using finite measurement sets and the spectral Stein gradient estimator. With fBNNs, we can specify priors entailing rich structures, including Gaussian processes and implicit stochastic processes. Empirically, we find fBNNs extrapolate well using various structured priors, provide reliable uncertainty estimates, and scale to large datasets.
研究の動機と目的
- 重み空間の事前分布が関数と結びつけるのが難しい理由と、関数空間の変分推論が役立つ理由を動機づける。
- functional ELBO(fELBO)を定義し、確率過程間のKL発散は有限の入力集合上の周辺KLの上限の極限として等しいことを示す(定理1)。
- 有限の測定セットとスペクトル Stein 勾配推定器(SSGE)を用いた実用的な学習目的を提案する。
- fBNNが構造化事前分布(GP様の事前分布、インプリシット過程など)を活用し、大規模データセットへスケールできることを示す。
- 実証的には外挿性、不確実性定量、文脈バンディットの性能における利点を示す。
提案手法
- 関数上の確率過程 prior p を定義し、確率的重み/入力を持つニューラルネットワークによって実現される関数上の変分後方分布 q を設定する。
- 関数的 ELBO を定式化: L(q)=E_q[log p(D|f)] - KL[q||p]、ここで KL は確率過程間のKLであり、有限の測定集合の周辺KLの supremum として計算される(定理1)。
- 測定集合上の周辺KLをサンプリングとスペクトル Stein 勾配推定器(SSGE)を用いて近似し、 functional KL 勾配を近似する。
- fELBO を最適化するために GAN のようなミニマックス枠組みを採用する(対となる測定集合やサンプリングベースの目的関数を用いる、式6-7)。
- アルゴリズム(Algorithm 1)を提供し、測定点と関数サンプルをサンプリングし、尤度勾配を計算し、KL勾配を近似するためにSSGEを用いる。
- Explicit または implicit な確率過程 prior(GP や区分的関数 priors などを含む)を許容し、Thompsonサンプリングなどのタスクのために明示的な後方関数サンプルを可能にする。
実験結果
リサーチクエスチョン
- RQ1関数空間での変分推論を直接行い、重み空間の事前分布よりもリッチな事前分布を実現できるか。
- RQ2fBNN における確率過程間の KL 発散を実務的にどのように計算・近似できるか。
- RQ3構造化事前分布を持つ fBNN は外挿性と信頼できる不確実性推定を達成できるか(重み空間BNNと比較して)。
- RQ4大規模データセットに対してスケールしつつ、予測性能と不確実性の較正を保てるか。
- RQ5fBNN は Thompson サンプリングや予測エントロピー探索のようなタスクで有用な関数の後方サンプルを生成できるか。
主な発見
| データセット | テスト RMSE | テスト対数尤度 | BBB | Noisy KFAC | FBNN | BBB | Noisy K-FAC | FBNN |
|---|---|---|---|---|---|---|---|---|
| Boston | 3.171 ± 0.149 | -2.602 ± 0.031 | 2.602? | ? | 2.378 ± 0.104 | -2.446 ± 0.029 | ? | -2.301 ± 0.038 |
| Concrete | 5.678 ± 0.087 | -3.149 ± 0.018 | ? | ? | 4.935 ± 0.180 | -3.039 ± 0.025 | ? | -3.096 ± 0.016 |
| Energy | 0.565 ± 0.018 | -1.500 ± 0.006 | ? | ? | 0.412 ± 0.017 | -1.421 ± 0.005 | ? | -0.684 ± 0.020 |
| Wine | 0.643 ± 0.012 | -0.977 ± 0.017 | ? | ? | 0.673 ± 0.014 | -0.969 ± 0.014 | ? | -1.040 ± 0.013 |
| Yacht | 1.174 ± 0.086 | -2.408 ± 0.007 | ? | ? | 0.607 ± 0.068 | -2.316 ± 0.006 | ? | -1.033 ± 0.033 |
- fBNN は、GP様の事前分布やインプリシット priors を含む構造化事前分布で良好な外挿性を示す。
- fBNN は信頼性の高い不確実性推定を提供し、大規模データセットへスケールする。
- 周期的構造を伴う外挿タスクで、fBNN は対応するカーネルを持つ GP priors に匹敵し、重み空間 BBB のベースラインを上回る。
- 小規模回帰ベンチマークにおいて、fBNN は RMSE と対数尤度で BBB および Noisy K-FAC を複数データセットで上回る。
- 大規模データセットでは、fBNN は RMSE と対数尤度で競争力を示し、スケーラビリティを実証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。