QUICK REVIEW

[論文レビュー] Bayesian Deep Learning and a Probabilistic Perspective of Generalization

Andrew Gordon Wilson, Pavel Izmailov|arXiv (Cornell University)|Feb 20, 2020

Gaussian Processes and Bayesian Inference参考文献 81被引用数 182

ひとこと要約

本論文は、ベイズ的周辺化を通して深層学習における一般化を再定義し、ディープアンサンブルと多模態周辺化（MultiSWAG）によって複数の収束領域にまたがるベイズ予測分布を近似することで予測精度と校正を向上させることを示す。

ABSTRACT

The key distinguishing property of a Bayesian approach is marginalization, rather than using a single setting of weights. Bayesian marginalization can particularly improve the accuracy and calibration of modern deep neural networks, which are typically underspecified by the data, and can represent many compelling but different solutions. We show that deep ensembles provide an effective mechanism for approximate Bayesian marginalization, and propose a related approach that further improves the predictive distribution by marginalizing within basins of attraction, without significant overhead. We also investigate the prior over functions implied by a vague distribution over neural network weights, explaining the generalization properties of such models from a probabilistic perspective. From this perspective, we explain results that have been presented as mysterious and distinct to neural network generalization, such as the ability to fit images with random labels, and show that these results can be reproduced with Gaussian processes. We also show that Bayesian model averaging alleviates double descent, resulting in monotonic performance improvements with increased flexibility. Finally, we provide a Bayesian perspective on tempering for calibrating predictive distributions.

研究の動機と目的

モデルサポートと帰納的バイアスに基づく一般化の確率的観点を動機づける。
モデル全体の周辺化が、単一ウェイトの最適化よりも優れた予測分布を提供することを主張する。
ディープアンサンブルがベイズ的周辺化を近似することを実證し、収束領域内で周辺化する方法を提案する。
重みの事前分布から誘導される関数への事前分布が、一般化現象とランダムラベルに関する謎の結果を説明することを示す。

提案手法

一般化を、モデルサポートと帰納的バイアスという二次元の概念として位置づける。
ベイズモデル平均化（BMA）を定義し、それを重みの周辺化と関連づける。
ディープアンサンブルを、収束領域間の多様性を捉える近似的なBMAとして解釈する。
MultiSWAGを導入する。複数のSWAG収束域をガウス混合として統合する、多模態事後分布の近似である。
周辺化アプローチを従来のモンテカルロ法および変分法と比較し、関数空間の多様性と予測キャリブレーションに焦点を当てる。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークのパラメータの周辺化は、単一点最適化と比較して予測精度と校正にどのような影響を与えるか。
RQ2ディープアンサンブルは、ベイズ推定と実用的なベイズモデル平均化の近似として整合させることができるか。
RQ3多模態周辺化（MultiSWAG）は、単一収束域法や標準アンサンブルより性能を改善するか。特に分布シフト下でどうか。
RQ4一般的な重み事前分布から誘導される関数への事前分布は何で、一般化とランダムラベルを適合させる能力にどのように影響するか。
RQ5テンパリングはベイズ深層学習におけるキャリブレーションと予測的不確実性にどう影響するか。

主な発見

ディープアンサンブルはベイズ的周辺化を近似し、多様な収束領域を表現することによってキャリブレーションと精度を向上させる。
多模態周辺化（MultiSWAG）は、単一の収束域アプローチや標準アンサンブルよりも大幅な改善をもたらし、特にノイズ・分布シフト下で顕著。
ベイズモデル平均化は、ダブルディセントを緩和し、モデルの柔軟性とともに単調な改善をもたらす。
重み事前分布から誘導される関数への事前分布は、合理的な帰納的バイアスを持ち得るため、クリーンデータで一般化を失うことなくランダムラベルを適合させるといった現象を説明できる。
ガウス過程はニューラルネットワーク風の一般化現象の一部を再現でき、結果はネットワークに特有のものではなく、大きなサポートを持つ関数の分布と適切な帰納的バイアスから生じることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。