QUICK REVIEW

[論文レビュー] All You Need is a Good Functional Prior for Bayesian Deep Learning

Ba-Hien Tran, Simone Rossi|arXiv (Cornell University)|Nov 25, 2020

Gaussian Processes and Bayesian Inference参考文献 64被引用数 23

ひとこと要約

本論文は、Wasserstein距離の最小化を用いてニューラルネットワークの重み事前分布をユーザー指定の機能的事前分布に一致させることで、ベイジアンニューラルネットワークの性能を向上させる新しいフレームワークを提案する。パrameter事前分布を、特にガウス過程に由来する事前分布に合わせて調整することにより、複数のベンチマークで予測精度と不確実性の定量化において最先端の性能を達成する。

ABSTRACT

The Bayesian treatment of neural networks dictates that a prior distribution is specified over their weight and bias parameters. This poses a challenge because modern neural networks are characterized by a large number of parameters, and the choice of these priors has an uncontrolled effect on the induced functional prior, which is the distribution of the functions obtained by sampling the parameters from their prior distribution. We argue that this is a hugely limiting aspect of Bayesian deep learning, and this work tackles this limitation in a practical and effective way. Our proposal is to reason in terms of functional priors, which are easier to elicit, and to "tune" the priors of neural network parameters in a way that they reflect such functional priors. Gaussian processes offer a rigorous framework to define prior distributions over functions, and we propose a novel and robust framework to match their prior with the functional prior of neural networks based on the minimization of their Wasserstein distance. We provide vast experimental evidence that coupling these priors with scalable Markov chain Monte Carlo sampling offers systematically large performance improvements over alternative choices of priors and state-of-the-art approximate Bayesian deep learning approaches. We consider this work a considerable step in the direction of making the long-standing challenge of carrying out a fully Bayesian treatment of neural networks, including convolutional neural networks, a concrete possibility.

研究の動機と目的

ベイジアンニューラルネットワークにおける制御不能な機能的事前分布の課題に対処すること。特に、重み事前分布が意図しないインダクティブバイアスを引き起こす問題を解決する。
パrameter事前分布から機能的事前分布への焦点のシフトにより、ベイジアンディープラーニングにおけるより解釈可能で効果的な事前分布の指定を可能にすること。
重み事前分布のハイパーパrameterを調整することで、誘導される機能的事前分布が望ましい分布（例：ガウス過程事前分布）と一致するようにする実用的な手法を開発すること。
このアプローチが、標準的な事前分布および既存の近似ベイジアン手法と比較して、予測性能と不確実性のキャリブレーションにおいて優れた結果をもたらすことを実証すること。

提案手法

ベイジアンニューラルネットワークの重み事前分布が誘導する機能的事前分布と、目標とする機能的事前分布（例：ガウス過程）を一致させる問題を形式化する。
最適化の目的関数として、誘導された機能的事前分布と目標となる機能的事前分布の間のWasserstein距離を用いる。
Kantorovich双対性を適用して、1-Lipschitz関数の最大化問題にWasserstein距離を再定式化し、微分可能な最適化を可能にする。
関数的事前分布の分布を経由してバックプロパゲーションが可能な、Wasserstein距離の双対表現を採用する。
重み事前分布のハイパーパrameter（例：分散、スケール）を最適化し、目標となる機能的事前分布とのWasserstein距離を最小化する。
スケーラブルなマルコフ連鎖モンテカルロ（MCMC）サンプリングと組み合わせて、パラメータ事前分布を最適化し、事後分布推論を実行する。

実験結果

リサーチクエスチョン

RQ1どのようにして、ベイジアンニューラルネットワークの重み事前分布が誘導する機能的事前分布を体系的かつ制御可能に制御できるか？
RQ2重み事前分布のパラメータを調整することで、望ましい機能的事前分布（例：GP事前分布）を再現する方法を設計できるか？
RQ3機能的事前分布の一致にWasserstein距離を用いた目的関数が、予測性能と不確実性キャリブレーションに与える影響は何か？
RQ4このアプローチは、標準的なガウス事前分布や最先端の近似ベイジアンディープラーニング手法を上回る性能を示すか？
RQ5このフレームワークは、完全結合層および畳み込みニューラルネットワークの両方に対して効果的に適用可能か？

主な発見

提案手法は、標準的なガウス事前分布と比較して、複数のビジョンおよび回帰ベンチマークで顕著に優れた予測性能を達成する。
最適化された機能的事前分布は、より良好な不確実性キャリブレーションをもたらし、負の対数尤度が低く抑えられ、予測精度が向上する。
本手法は、ベイジアンディープラーニング分野で最先端の結果を達成しており、標準的な事前分布および高度な近似推論手法を上回る。
Wasserstein距離の使用により、高次元パラメータ空間においても、機能的事前分布の一致を安定かつ強固に最適化できる。
実験では、深層ネットワークにおける病理的挙動（例：深層tanhネットワークにおける水平線の出力など）が効果的に軽減される。
本フレームワークは、完全結合層および畳み込みニューラルネットワークの両方に対して一般化可能であり、アーキテクチャを問わず一貫した性能向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。