QUICK REVIEW

[論文レビュー] The Case for Bayesian Deep Learning

Andrew Gordon Wilson|arXiv (Cornell University)|Jan 29, 2020

Gaussian Processes and Bayesian Inference参考文献 41被引用数 66

ひとこと要約

本論文はニューラルネットワークの重みの周辺化（ベイズモデル平均化）が、標準的な最適化よりも深層ネットの校正と精度を向上させると主張し、深いアンサンブルは近似的なベイズ的周辺化とみなされ、関数空間における先行情報が帰納的バイアスを符号化する、という点を述べている。

ABSTRACT

The key distinguishing property of a Bayesian approach is marginalization instead of optimization, not the prior, or Bayes rule. Bayesian inference is especially compelling for deep neural networks. (1) Neural networks are typically underspecified by the data, and can represent many different but high performing models corresponding to different settings of parameters, which is exactly when marginalization will make the biggest difference for both calibration and accuracy. (2) Deep ensembles have been mistaken as competing approaches to Bayesian methods, but can be seen as approximate Bayesian marginalization. (3) The structure of neural networks gives rise to a structured prior in function space, which reflects the inductive biases of neural networks that help them generalize. (4) The observed correlation between parameters in flat regions of the loss and a diversity of solutions that provide good generalization is further conducive to Bayesian marginalization, as flat regions occupy a large volume in a high dimensional space, and each different solution will make a good contribution to a Bayesian model average. (5) Recent practical advances for Bayesian deep learning provide improvements in accuracy and calibration compared to standard training, while retaining scalability.

研究の動機と目的

深層ニューラルネットワークにおける最適化の優れた代替としてベイズ周辺化を動機づける。
深層アンサンブルがベイズモデル平均化とどのように関連し、なぜ近似的な周辺化としてみなすことができるかを説明する。
関数空間での先行情報の重要性とニューラルアーキテクチャの帰納的バイアスを論じる。
MAPトレーニングと対比させつつ、スケーラブルなベイズ深層学習の実践的進展と課題を強調する。

提案手法

予測分布としてベイズモデル平均 p(y|x,D) = ∫ p(y|x,w) p(w|D) dw を提示する。
深層ネットワークは特異性が不足しており、拡散した事後分布を生み出すことから、周辺化が校正と精度の改善に役立つ。
深層アンサンブルは近似後処分サンプルに関連づけ、モデル平均の冗長性を避けるための多様性を強調する。
構造化されたモデル（例：CNN）によって誘発される関数空間の先行情報と、パラメータ空間の先行情報の役割を論じる。
高次元の事後分布に対処するための、アンサンブルに触発された方法、部分空間推論、MCMC など、スケーラブルなベイズ深層学習手法を概説する。

実験結果

リサーチクエスチョン

RQ1従来のMAP最適化と比較して、ベイズ周辺化は深層ニューラルネットワークの校正と精度にどのような影響を与えるか。
RQ2深層アンサンブルは近似的なベイズ周辺化と解釈できるか、またその有効性の条件は何か。
RQ3ベイズ深層学習における関数空間の先行情報とニューラルの帰納的バイアスはどのような役割を果たすか。
RQ4深層ネットワークでのベイズ推論を実行するためのスケーラブルなアプローチにはどのようなものがあり、それらの実用的な利点と限界は何か。

主な発見

ベイズモデル平均化は認識的不測性を捉え、深層ネットで予測の校正と精度を改善する。
深層アンサンブルは、収束地帯全体にわたる多様な高性能解を探索することにより、ベイズ周辺化を近似する。
CNN などのアーキテクチャによって誘発される構造化された関数空間の先行情報は、一般化に有用な帰納的バイアスを提供する。
損失地形の平坦な領域は多様な良好解に対応し、高次元におけるベイズ周辺化の有効性を高める。
最近の実用的なベイズ深層学習法は、精度と校正の改善を提供しつつスケーラビリティを維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。