QUICK REVIEW

[論文レビュー] On Feature Collapse and Deep Kernel Learning for Single Forward Pass Uncertainty

Joost van Amersfoort, Lewis Smith|arXiv (Cornell University)|Feb 22, 2021

Gaussian Processes and Bayesian Inference参考文献 48被引用数 56

ひとこと要約

この論文は Deep Kernel Learning (DKL) における特徴量崩壊を明らかにし、 bi-Lipschitz 制約付き特徴抽出器と誘導点 GP を用いた Deterministic Uncertainty Estimation (DUE) を提案して、単一前方伝播のままで優れた不確実性推定を実現する。

ABSTRACT

Inducing point Gaussian process approximations are often considered a gold standard in uncertainty estimation since they retain many of the properties of the exact GP and scale to large datasets. A major drawback is that they have difficulty scaling to high dimensional inputs. Deep Kernel Learning (DKL) promises a solution: a deep feature extractor transforms the inputs over which an inducing point Gaussian process is defined. However, DKL has been shown to provide unreliable uncertainty estimates in practice. We study why, and show that with no constraints, the DKL objective pushes "far-away" data points to be mapped to the same features as those of training-set points. With this insight we propose to constrain DKL's feature extractor to approximately preserve distances through a bi-Lipschitz constraint, resulting in a feature space favorable to DKL. We obtain a model, DUE, which demonstrates uncertainty quality outperforming previous DKL and other single forward pass uncertainty methods, while maintaining the speed and accuracy of standard neural networks.

研究の動機と目的

高速・単一前方伝播モデルにおける信頼できる不確実性推定の必要性を動機づける。
標準の DKL ベースの不確実性が特徴崩壊により信頼できなくなる原因を診断する。
bi-Lipschitz な特徴抽出器を用いた制約付き DKL アプローチ（DUE）を提案し、不確実性の質を改善する。
DUE がニューラルネットワークの速度と精度を維持しつつ競争力のある、またはそれを上回る不確実性性能を達成することを実証する。

提案手法

深い特徴抽出器が制約されていないときの DKL における特徴崩壊を解析する。
特徴抽出器に残差接続とスペクトル正規化を用いて bi-Lipschitz 制約を課し、感度と滑らかさを強制する。
制約された特徴抽出器の上に深い GP（誘導点）を置き、真の非パラメトリックな不確実性推定を行う。
事前学習なし・少数の誘導点という実用的簡略化を用いて、ゼロからエンドツーエンドで訓練する。
AUROC、精度、予測不確実性指標を用いて SNGP や他の単一前方伝播法と比較する。
誘導点初期化を K-means やスペクトル正規化調整を含む Algorithm 1 による実用的な訓練手順を提供する。

実験結果

リサーチクエスチョン

RQ1特徴崩壊は DKL でどのように生じ、どのように不確実性推定に影響するのか？
RQ2特徴抽出器の bi-Lipschitz 制約は特徴崩壊を緩和し、DKL の不確実性の質を改善できるか？
RQ3誘導点を持つ DKL ベースの単一前方伝播モデル（DUE）は、標準的不確実性ベンチマークや回帰タスクで既存手法を上回るか？
RQ4DUE はゼロからの訓練が実用的で、標準的なニューラルネットワークと比較して速度と精度で競争力があるか？
RQ5DUE は CIFAR-10 vs SVHN の識別と因果/医療不確実性ベンチマークでどのように性能を発揮するか？

主な発見

手法	AUROC	Accuracy
SV-DKL（制約あり）	0.959 ± 0.001	95.7 ± 0.06
SV-DKL（制約なし）	0.498 ± 0.001	93.6 ± 0.05
GPDNN（制約あり）	0.958 ± 0.005	95.6 ± 0.04
GPDNN（制約なし）	0.876 ± 0.004	93.7 ± 0.10

制約のない DKL での特徴崩壊は out-of-distribution データに対して高信頼度を生み、不確実性推定を劣化させる。
bi-Lipschitz 制約を伴う特徴抽出器（残差接続とスペクトル正規化）は特徴崩壊を緩和し、不確実性の挙動を改善する。
制約された特徴抽出器の上に誘導点 GP を組み合わせた DUE は、CIFAR-10 vs SVHN で競合する、あるいはそれを上回る強力な不確実性性能を達成する。
DUE は事前訓練なし・最小限のオーバーヘッドでゼロから訓練可能で、CIFAR-10 では誘導点を少数（例: 10）に抑えても実行時間は標準的なソフトマックスモデルに近い。
DUE は他の単一前方伝播法を CIFAR-10 vs SVHN 不確実性タスクおよび個別化医療の回帰ベンチマークで上回りつつ、アンサンブルよりは大幅に高速。
誘導点 GP アプローチは非パラメトリック GP の特性を保持し、全 GP に近い学習支援外の不確実性を提供する。RFF ベースの手法とは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。