Skip to main content
QUICK REVIEW

[論文レビュー] Well-calibrated Model Uncertainty with Temperature Scaling for Dropout Variational Inference

Max-Heinrich Laves, Sontje Ihler|arXiv (Cornell University)|Sep 30, 2019
Adversarial Robustness in Machine Learning参考文献 18被引用数 26
ひとこと要約

本稿では、ドロップアウト変分ベイズ推論における温度スケーリングを提案し、深層ニューラルネットワークにおける適切にキャリブレートされたモデルの不確実性を実現する。モンテカルロドロップアウト推論中にソフトマックス出力をなめらかにするために、学習可能な温度パラメータTを適用することで、不確実性のキャリブレーション誤差(UCE)が最大66%まで低減される。CIFAR-100とResNet-101を用いた実験で、モデルの精度を維持したまま、信頼性の高い予測拒否が可能になる。

ABSTRACT

Model uncertainty obtained by variational Bayesian inference with Monte Carlo dropout is prone to miscalibration. The uncertainty does not represent the model error well. In this paper, temperature scaling is extended to dropout variational inference to calibrate model uncertainty. Expected uncertainty calibration error (UCE) is presented as a metric to measure miscalibration of uncertainty. The effectiveness of this approach is evaluated on CIFAR-10/100 for recent CNN architectures. Experimental results show, that temperature scaling considerably reduces miscalibration by means of UCE and enables robust rejection of uncertain predictions. The proposed approach can easily be derived from frequentist temperature scaling and yields well-calibrated model uncertainty. It is simple to implement and does not affect the model accuracy.

研究の動機と目的

  • ドロップアウト変分ベイズ推論における不確実性のキャリブレーション誤差(予測された信頼度と実際の誤差率が一致しないこと)を是正すること。
  • 元々頻度主義的ソフトマックス出力のキャリブレーションに用いられていた温度スケーリングを、モンテカルロドロップアウトを用いたベイズ的深層学習に拡張すること。
  • ベイズモデルにおける不確実性キャリブレーションの度合いを定量化する新しい指標、期待不確実性キャリブレーション誤差(UCE)を定義すること。
  • 適切にキャリブレートされた不確実性推定を用いて、不確実な予測の強力な拒否を可能にすること。
  • 訓練中に信頼度ペナルティよりも、温度スケーリングが不確実性キャリブレーションを達成する上で優れていることを示すこと。

提案手法

  • モンテカルロドロップアウト推論中に、ニューラルネットワークのロジットに温度スケーリングを適用し、スカラーの温度パラメータTを用いてソフトマックス出力をなめらかにする。
  • 検証セットを用いて期待不確実性キャリブレーション誤差(UCE)の勾配降下法による最適化により、温度スケーリングの更新則を導出する。
  • N回の順方向伝搬を用いたモンテカルロドロップアウトにより、事後予測分布を近似し、正規化エントロピーを用いて不確実性を計算する。
  • 正規化エントロピーH̃(p)を不確実性の尺度として定義し、[0,1]の範囲にスケーリングすることで、全クラスにおける予測の信頼度を定量化する。
  • 検証セット上でUCEを最小化することで不確実性をキャリブレートする。ここで、UCEは信頼度のビンごとの予測信頼度と実際の正答率の期待差を測定する。
  • モデルの尤度と不確実性推定の両方に、学習済みの温度Tを適用することで、キャリブレーションの一貫性を保証する。

実験結果

リサーチクエスチョン

  • RQ1温度スケーリングは、モンテカルロドロップアウトを用いた不確実性推定におけるキャリブレーション誤差を効果的に低減できるか?
  • RQ2温度スケーリングは、信頼度ペナルティと比較して、不確実性および予測信頼度のキャリブレーションにおいて優れているか?
  • RQ3温度スケーリングは、不確実性に基づく予測拒否の信頼性をどの程度向上させるか?
  • RQ4温度スケーリングは、不確実性キャリブレーションの向上を図る一方で、モデルの精度を維持できるか?
  • RQ5ネットワークのアーキテクチャや深さは、不確実性キャリブレーションにおける温度スケーリングの有効性にどのような影響を与えるか?

主な発見

  • ResNet-101を用いたCIFAR-100では、温度スケーリングにより不確実性キャリブレーション誤差(UCE)が最大66%低減され、UCEは30.33%から2.41%に低下した。
  • ResNet-18を用いたCIFAR-10では、UCEは未キャリブレート時(7.60%)から温度スケーリング後(5.27%)に低下し、一貫した改善が確認された。
  • 温度スケーリングは信頼度ペナルティを上回った:CPはECEを5.20%から3.37%に低下させたが、TSはより低いECEとUCEを達成し、より優れた不確実性キャリブレーションを実現した。
  • 適切にキャリブレートされた不確実性により、信頼性の高い予測拒否が可能になった:不確実性の閾値を低下させると、誤差はほぼ線形に減少し、信頼性の高い不確実性推定であることが示された。
  • 本手法は実装が簡単であり、モデルの精度に影響を与えず、再訓練なしに事後処理として適用可能である。
  • 信頼性ダイアグラムにより、TSキャリブレート済みの不確実性が、信頼度のビンごとに予測信頼度と実際の正答率をよりよく一致させていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。