Skip to main content
QUICK REVIEW

[論文レビュー] Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks

Agustinus Kristiadi, Matthias Hein|arXiv (Cornell University)|Feb 24, 2020
Adversarial Robustness in Machine Learning参考文献 52被引用数 34
ひとこと要約

この論文は、ReLUネットワークの重みに対するガウス近似(最終層のベイズ推定を含む)が、訓練データから遠い領域での予測の過信を緩和し、理論と実験が低コストな“少しベイズ的”解決策を支持することを示している。

ABSTRACT

The point estimates of ReLU classification networks---arguably the most widely used neural network architecture---have been shown to yield arbitrarily high confidence far away from the training data. This architecture, in conjunction with a maximum a posteriori estimation scheme, is thus not calibrated nor robust. Approximate Bayesian inference has been empirically demonstrated to improve predictive uncertainty in neural networks, although the theoretical analysis of such Bayesian approximations is limited. We theoretically analyze approximate Gaussian distributions on the weights of ReLU networks and show that they fix the overconfidence problem. Furthermore, we show that even a simplistic, thus cheap, Bayesian approximation, also fixes these issues. This indicates that a sufficient condition for a calibrated uncertainty on a ReLU network is "to be a bit Bayesian". These theoretical results validate the usage of last-layer Bayesian approximation and motivate a range of a fidelity-cost trade-off. We further validate these findings empirically via various standard experiments using common deep ReLU networks and Laplace approximations.

研究の動機と目的

  • ReLUネットワークにおける過信の問題を動機づけ、形式化し、キャリブレーションとロバスト性への影響を明らかにする。
  • 訓練データから離れた領域で予測の信頼度を安定化させるガウス近似による重みを示す理論的結果を開発する。
  • 特に最終層ベイズ推定を含む最小限のベイズ処理が、分布内の精度を損なうことなくキャリブレーションを修正できることを示す。
  • ロプラス(Laplace)近似/ガウス近近を用いた一般的な深層ReLUアーキテクチャで経験的実験により理論を検証する。

提案手法

  • 重み theta に対するガウス近似 p(theta|D) の下でネットワーク予測をモデル化し、予測分布を導出する。
  • 正体/Φ近似を用いてガウス重み不確実性と校正された予測確率を関連付ける(式 3–5)。
  • ガウス周辺化の下でMAP決定が不変であることを示す不変性性質を証明する(命題 2.2)。
  • 訓練データから遠くの入力サンプルをスケールさせたときの予測信頼度の漸近的な境界を導出する(定理 2.3 および 2.4)。
  • 最終層のガウス近似が、遠く離れた点で有界な信頼度を達成するのに十分であることを示す(定理 2.4)。
  • Laplace近似(全層および最終層)を適用して、キャリブレーションとOOD検出への影響を分析・定量化する(命題 2.5 および関連する議論)。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークの重みに対するガウス的不確実性を導入することで、訓練データから遠い領域でのReLU分類器の過信は緩和されるのか?
  • RQ2全層のベイズ処理が必要か、それとも軽量な最終層ベイズ推定で校正された不確実性を達成できるのか?
  • RQ3ガウス近似がOOD入力に対する予測信頼度の漸近的挙動にどう影響するか?
  • RQ4これらの理論的洞察はマルチクラス分類や実践的なOOD検出シenarioにも適用できるか?
  • RQ5Laplace近似で事前分散を設定する実用的な戦略は、分布内の精度と分布外の校正をどうバランスさせるか?

主な発見

  • ガウス重み不確実性は、遠く離れた領域での予測の信頼度を平均と共分散によって決まる有限の境界へと導くことにより、ReLUネットワークの過信を緩和する。
  • 最終層ガウス近似は、訓練済みMAPネットワークの意思決定境界を変更せずに校正された不確実性を得るのに十分である。
  • 全層ガウス近似は、遠距離信頼度をさらに制限し、それをヤコビ行列と重み共分散の最小固有値に関連づける。
  • Laplace近似は再訓練なしでベイズ補正を実現する実用的な手段を提供し、事前分散が遠距離での信頼度を制御する。
  • 一般的なアーキテクチャ(LeNet、ResNet-18)とデータセット(二値および多クラス)での経験的結果は、理論的予測を裏付け、OOD検出性能を向上させる。
  • このキャリブレーション任务では、実践的には最終層ベイズ法が全階ベイズ法よりも優れることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。