Skip to main content
QUICK REVIEW

[論文レビュー] Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness

Jeremiah Zhe Liu, Lin Zi|arXiv (Cornell University)|Jun 17, 2020
Fault Detection and Control Systems被引用数 141
ひとこと要約

本論文は SNGP を導入します。ラプラス近似された Gaussian Process 出力層とスペクトル正規化、距離を保つ hidden mappings を組み合わせる単一モデルの手法により、距離を意識した不確実性推定を実現します。キャリブレーションと OOD 検出において深層アンサンブルと競合しつつ、推論を高速に維持します。

ABSTRACT

Bayesian neural networks (BNN) and deep ensembles are principled approaches\nto estimate the predictive uncertainty of a deep learning model. However their\npracticality in real-time, industrial-scale applications are limited due to\ntheir heavy memory and inference cost. This motivates us to study principled\napproaches to high-quality uncertainty estimation that require only a single\ndeep neural network (DNN). By formalizing the uncertainty quantification as a\nminimax learning problem, we first identify input distance awareness, i.e., the\nmodel's ability to quantify the distance of a testing example from the training\ndata in the input space, as a necessary condition for a DNN to achieve\nhigh-quality (i.e., minimax optimal) uncertainty estimation. We then propose\nSpectral-normalized Neural Gaussian Process (SNGP), a simple method that\nimproves the distance-awareness ability of modern DNNs, by adding a weight\nnormalization step during training and replacing the output layer with a\nGaussian process. On a suite of vision and language understanding tasks and on\nmodern architectures (Wide-ResNet and BERT), SNGP is competitive with deep\nensembles in prediction, calibration and out-of-domain detection, and\noutperforms the other single-model approaches.\n

研究の動機と目的

  • 深層ニューラルネットワークにおける高品質な不確実性推定の主要な指標として、距離意識を動機づける。
  • 訓練データから遠い入力に対して一様なアウトオブドメイン予測を正当化するため、不確実性推定をミニマックス問題として形式化する。
  • 出力層を距離認識可能にし、隠れマッピングを距離保存型にしつつ、スケーラビリティを維持するよう SNGP を提案する。
  • リアルタイム推論を備えた視覚と言語タスクで、SNGP が深層アンサンブルと競争力があることを示す。

提案手法

  • Spectral-normalized Neural Gaussian Process (SNGP) を単一モデルの不確実性手法として導入する。
  • 密結合出力層を、 Laplace approximation を用いた random Fourier feature expansion の Gaussian Process に置換し、スケーラブルな posterior 推定を実現する。
  • 隠れマッピングに距離保存の制約を課すため、スペクトral-normalizing された残差ブロックを用いて bi-Lipschitz 条件を課する。
  • SGD で訓練し、最終エポックで GP posterior precision を更新して、閉形式の予測不確実性計算を可能にする。
  • 推論時に Monte Carlo Sampling を回避し、学習済みの隠れ表現と GP を統合して予測を提供する。

実験結果

リサーチクエスチョン

  • RQ1 ensembles に頼らず、単一の決定論的 DNN で高品質な予測不確実性をどう達成できるか?
  • RQ2入力の距離意識はニューラルネットワークのキャリブレーションと OOD 検出においてどんな役割を果たすか?
  • RQ3GP 出力層と距離保存型の hidden mappings が、不確実性指標と OOD 検出においてアンサンブルの性能と同等になり得るか?
  • RQ4標準的な訓練パイプライン内で、スケーラブルな GP ベースの不確実性推定は可能か?
  • RQ5SNGP は視覚・言語タスクで、単一モデルのベースラインと深層アンサンブルとをどう比較するか?

主な発見

  • SNGP は、キャリブレーションとアウトオブドメイン検出で深層アンサンブルに競合する不確実性を提供しつつ、単一モデル推論速度を維持する。
  • GP 出力層と bi-Lipschitz な隠れマッピングによって得られる距離意識は、深いネットワークにおいてもガウス過程に近い不確実性表面を生み出す。
  • スペクトル正規化により歪みのない隠れ表現が保証され、距離保持と不確実性の質がタスク全体で向上する。
  • GP ポステリオ推定をランプルサーファー特徴と組み合わせたラプラス近似は、Monte Carlo サンプリングを用いずにスケーラブルな訓練と推論を実現する。
  • CIFAR-10/100 with Wide ResNet および CLINC OOS with BERT の場合、SNGP はキャリブレーションと OOD 指標で他の単一モデル手法と同等か上回り、距離非意識的手法を凌ぐことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。