QUICK REVIEW

[논문 리뷰] On Feature Collapse and Deep Kernel Learning for Single Forward Pass Uncertainty

Joost van Amersfoort, Lewis Smith|arXiv (Cornell University)|2021. 02. 22.

Gaussian Processes and Bayesian Inference참고 문헌 48인용 수 56

한 줄 요약

논문은 단일 순전파 불확실성에 대한 Deep Kernel Learning(DKL)에서 특징 붕괴를 식별하고, bi-Lipschitz 제약 특징 추출기와 유도점 GP를 활용한 Deterministic Uncertainty Estimation(DUE)을 제안하여 빠르게 높은 불확실성 추정 성능을 달성한다.

ABSTRACT

Inducing point Gaussian process approximations are often considered a gold standard in uncertainty estimation since they retain many of the properties of the exact GP and scale to large datasets. A major drawback is that they have difficulty scaling to high dimensional inputs. Deep Kernel Learning (DKL) promises a solution: a deep feature extractor transforms the inputs over which an inducing point Gaussian process is defined. However, DKL has been shown to provide unreliable uncertainty estimates in practice. We study why, and show that with no constraints, the DKL objective pushes "far-away" data points to be mapped to the same features as those of training-set points. With this insight we propose to constrain DKL's feature extractor to approximately preserve distances through a bi-Lipschitz constraint, resulting in a feature space favorable to DKL. We obtain a model, DUE, which demonstrates uncertainty quality outperforming previous DKL and other single forward pass uncertainty methods, while maintaining the speed and accuracy of standard neural networks.

연구 동기 및 목표

빠른 단일 순전파 모델에서 신뢰할 수 있는 불확실성 추정이 필요한 이유를 제시한다.
특징 붕괴로 인해 표준 DKL 기반 불확실성이 신뢰할 수 없게 되는 원인을 진단한다.
비-선형 매개변수를 가진 특징 추출기에 bi-Lipschitz 제약을 가한 DKL 접근(DUE)을 제안하여 불확실성 품질을 개선한다.
DUE가 신경망의 속도와 정확도를 유지하면서 경쟁력 있거나 우수한 불확실성 성능을 달성함을 입증한다.

제안 방법

unconstrained일 때 DKL에서 특징 붕괴를 분석한다.
잔차 연결과 스펙트럴 정규화를 통해 특징 추출기에 bi-Lipschitz 제약을 부여하여 민감도와 매끄러움을 강제한다.
제한된 특징 추출기 위에 딥 GP(유도점)를 배치하여 실제 비모수적 불확실성 추정을 수행한다.
사전 학습 없이 실용적인 단순화(사전 학습 없음, 적은 수의 유도점)으로 처음부터 엔드투엔드로 학습한다.
SNGP 및 기타 단일 순전파 방법과 AUROC, 정확도, 예측 불확실성 지표를 사용해 비교한다.
유도점 초기화는 K-평균과 스펙트럼 정규화 조정을 포함한 실용적 학습 단계(알고리즘 1)를 제공한다.

실험 결과

연구 질문

RQ1DKL에서 특징 붕괴가 어떻게 발생하고 이것이 불확실성 추정에 어떤 영향을 미치는가?
RQ2특징 추출기에 bi-Lipschitz 제약이 특징 붕괴를 완화하고 DKL의 불확실성 품질을 향상시킬 수 있는가?
RQ3유도점을 갖춘 DKL 기반 단일 순전파 모델(DUE)이 표준 불확실성 벤치마크 및 회귀 작업에서 기존 방법을 능가하는가?
RQ4DUE를 처음부터 학습하는 것이 실용적이며 표준 신경망과 비교해 속도와 정확도 면에서 경쟁력이 있는가?
RQ5DUE는 CIFAR-10 대 SVHN 구분 및 인과/의료 불확실성 벤치마크에서 어떻게 성능을 발휘하는가?

주요 결과

제한되지 않은 DKL에서의 특징 붕괴는 OOD 데이터에 대해 높은 확신을 유발하여 불확실성 추정이 저하된다.
bi-Lipschitz 제약을 가진 특징 추출기(잔차 연결과 스펙트럼 정규화)가 특징 붕괴를 완화하고 불확실성 동작을 향상시킨다.
제한된 특징 추출기 위에 유도점 GP를 사용하는 DUE는 CIFAR-10 vs SVHN에서 경쟁적이거나 더 나은 단일 순전파 방법과 비교해 강력한 불확실성 성능을 달성한다.
DUE는 사전 학습 없이 최소한의 오버헤드로 CIFAR-10의 경우 10개 정도의 유도점으로 처음부터 학습되며 런타임은 표준 소프트맥스 모델에 근접한다.
DUE는 CIFAR-10 vs SVHN 불확실성 작업 및 개인 맞춤 의학 회귀 벤치마크에서 대안 단일 순전파 방법보다 우수하며 앙상블에 비해 현저히 빠르다.
유도점 GP 방식은 비모수적 GP 특성을 유지하고, RFF 기반 방법과 달리 학습 데이터의 지원 밖에서의 불확실성을 전체 GP와 유사하게 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.