QUICK REVIEW

[論文レビュー] Bayesian Deep Ensembles via the Neural Tangent Kernel

Bobby He, Balaji Lakshminarayanan|arXiv (Cornell University)|Jul 11, 2020

Gaussian Processes and Bayesian Inference参考文献 62被引用数 28

ひとこと要約

本稿では、標準的なディープアンサンブル学習に、各アンサンブルメンバーにランダムで学習不能な関数を追加することで、ニューラルタングェントカーネル（NTK）を介して無限幅極限において有効な事後予測解釈が可能になるように変更したベイジアンディープアンサンブルを提案する。この手法により、標準的なディープアンサンブルよりも保守的で不確実性を考慮した予測が得られ、回帰および分類タスクにおいて解析的事後予測分布に非常に近い近似が得られ、分布外一般化性能においてベースラインを上回る。

ABSTRACT

We explore the link between deep ensembles and Gaussian processes (GPs) through the lens of the Neural Tangent Kernel (NTK): a recent development in understanding the training dynamics of wide neural networks (NNs). Previous work has shown that even in the infinite width limit, when NNs become GPs, there is no GP posterior interpretation to a deep ensemble trained with squared error loss. We introduce a simple modification to standard deep ensembles training, through addition of a computationally-tractable, randomised and untrainable function to each ensemble member, that enables a posterior interpretation in the infinite width limit. When ensembled together, our trained NNs give an approximation to a posterior predictive distribution, and we prove that our Bayesian deep ensembles make more conservative predictions than standard deep ensembles in the infinite width limit. Finally, using finite width NNs we demonstrate that our Bayesian deep ensembles faithfully emulate the analytic posterior predictive when available, and can outperform standard deep ensembles in various out-of-distribution settings, for both regression and classification tasks.

研究の動機と目的

標準的なディープアンサンブルには、優れた経験的性能を示すが、現在ではそのような基礎づけのないベイジアン解釈を明確に提供すること。
ニューラルタングェントカーネル（NTK）を用いて、無限幅極限におけるディープアンサンブルとガウス過程（GPs）の間のギャップを埋めること。
標準的なディープアンサンブル学習に計算的に実行可能で、NTK領域における正確な事後サンプリングを可能にする修正を考案すること。
提案手法が、標準的なディープアンサンブルおよび他のベースラインと比較して不確実性のキャリブレーションと分布外一般化性能を向上させることを評価すること。
特に単純で広いアーキテクチャにおいて、解析的事後予測分布が利用可能な場合に、その方法がその分布を忠実に再現できることを示すこと。

提案手法

各ベースラーナーが最適化中に、独立に抽出されたランダムで学習不能な関数に正則化されるように、変更されたディープアンサンブル学習手順を導入する。
ニューラルタングェントカーネル（NTK）フレームワークを用いて、無限幅極限において、得られるアンサンブルがガウス過程の事後予測分布に近似することを示す。
NTKを用いて、変更されたアンサンブルが、ニューラルネットワーク関数 $ f(\cdot, \bm{\theta}) $ の有効な事後サンプルを生成することを証明し、ベイジアン推論を可能にする。
パラメータの線形性が局所的に成り立つ（広いネットワークでは成り立つ）という仮定の下で、NTK領域における確率的事前分布を用いて、正確な事後サンプリングを達成する。
MLPおよびCNNを用いた回帰および分類タスクにこの手法を適用し、標準的なディープアンサンブルおよびランダム事前分布ベースラインと比較して、予測性能と不確実性キャリブレーションを評価する。
誤差-信頼度および予測エントロピーのヒストグラムを用いて、NotMNISTおよびSVHNなどの分布内および分布外データセットにおける不確実性キャリブレーションを評価する。

実験結果

リサーチクエスチョン

RQ1標準的なディープアンサンブル学習に対する簡単な修正が、無限幅極限において有効なベイジアン事後予測解釈を可能にするか？
RQ2提案されたベイジアンディープアンサンブルは、標準的なディープアンサンブルおよびランダム事前分布ベースラインと比較して、不確実性キャリブレーションおよび分布外耐性においてどのように異なるか？
RQ3解析的事後予測分布が利用可能な場合、この手法がその分布をどの程度忠実に再現するか？
RQ4アンサンブルサイズおよびNTKハイパーパrameterが予測性能および不確実性キャリブレーションに与える影響は何か？
RQ5NTKフレームワークを用いて、ベイジアンディープラーニングにおける長年の未解決課題である、ディープアンサンブルに対する原理的ベイジアン解釈を導出できるか？

主な発見

提案されたベイジアンディープアンサンブルは、分布外テストセットにおいて標準的なディープアンサンブルよりも顕著に低い誤差を達成し、NotMNISTデータセットにおいて信頼度閾値 $ \tau = 0.6 $ で15%の誤差低減を達成した。
MNIST 対 NotMNIST ベンチマークにおいて、NTKGPに基づくアンサンブル手法は、分布内および分布外の両方の性能において、解析的NTKGP事後予測分布に非常に近い近似を達成した。
予測エントロピーのヒストグラムから、ベイジアンディープアンサンブルは、NotMNISTおよびSVHNの分布外データに対してより保守的な予測を行うことが示された。
特に分布外一般化タスクにおいて、標準的なディープアンサンブルおよびランダム事前分布（RP）ベースラインを上回る不確実性キャリブレーション性能を示した。
小さなアンサンブルサイズに対しても、ベイジアンディープアンサンブルは強力な不確実性キャリブレーションを提供しており、アンサンブルサイズが大きくなるにつれて、解析的事後分布に近づく。
この手法はラージラーニング領域で最も効果的であり、自信のある予測が有害でない場合には、標準的なディープアンサンブルを下回る可能性があるが、NTKハイパーパrameterのチューニングによりこれを緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。