QUICK REVIEW

[논문 리뷰] Activation-Space Uncertainty Quantification for Pretrained Networks

Richard Bergna, Stefan Depeweg|arXiv (Cornell University)|2026. 02. 16.

Gaussian Processes and Bayesian Inference인용 수 0

한 줄 요약

GAPA 후-호 방법은 활성화를 Gaussian-process 활성화로 대체하여 활성공간의 에피스테믹 불확실성을 얻는 한편 백본 예측은 유지하고, 사전 학습된 네트워크에 대해 단일 패스 불확실성 전파를 가능하게 한다.

ABSTRACT

Reliable uncertainty estimates are crucial for deploying pretrained models; yet, many strong methods for quantifying uncertainty require retraining, Monte Carlo sampling, or expensive second-order computations and may alter a frozen backbone's predictions. To address this, we introduce Gaussian Process Activations (GAPA), a post-hoc method that shifts Bayesian modeling from weights to activations. GAPA replaces standard nonlinearities with Gaussian-process activations whose posterior mean exactly matches the original activation, preserving the backbone's point predictions by construction while providing closed-form epistemic variances in activation space. To scale to modern architectures, we use a sparse variational inducing-point approximation over cached training activations, combined with local k-nearest-neighbor subset conditioning, enabling deterministic single-pass uncertainty propagation without sampling, backpropagation, or second-order information. Across regression, classification, image segmentation, and language modeling, GAPA matches or outperforms strong post-hoc baselines in calibration and out-of-distribution detection while remaining efficient at test time.

연구 동기 및 목표

재훈련이나 샘플링 없이 사전 학습된 네트워크에 대한 에피스테믹 불확실성을 제공한다.
백본의 점 예측을 보존하면서 활성화 공간의 불확실성을 더한다.
현대 아키텍처를 위한 확장 가능한 오프라인 활성화 캐싱과 로컬 유도 포인트 조건화를 개발한다.
딥 네트워크를 통한 결정적 단일 패스 분산 전파를 도출한다.
회귀, 분류, 분할, 그리고 언어 모델링에 걸쳐 GAPA를 실험적으로 검증한다.

제안 방법

결정적 활성화를 원래 활성화와 같은 뒤평균을 가지는 가우시안 프로세스 활성화로 대체한다.
훈련 데이터에 대한 순전파에서의 프리액티베이션을 캐시하고 이 캐시에 의해 GP 활성화를 유도 포인트와 로컬 최근접 이웃 조건부를 사용해 조건화한다.
고정된 네트워크를 통해 결과 활성공간 분산을 닫힌 형식의 분산 전파 규칙으로 전파한다.
확장성을 위해 대각선(뉴런별) 활성 공분산을 유지한다.
비선형 활성화에는 델타-방법 기반 모멘트 전파를 사용하고 층을 쌓을 때 Noisy-Input GP 보정을 적용한다.
하이퍼파라미터는 활성화 통계로부터 후처리로 고정되며 재훈련이나 라벨이 필요 없다.

Figure 1 : Comparison of uncertainty quantification methods on a toy binary classification task. Left to right : MAP (deterministic backbone), MC Dropout, Last-Layer Laplace, and GAPA (ours). Background shading indicates predictive confidence (darker = more confident); orange/yellow points show the

실험 결과

연구 질문

RQ1활성화 공간 불확실성이 재훈련이나 샘플링 없이도 사전 학습된 네트워크에 대해 정확한 에피스테믹 추정을 제공할 수 있는가?
RQ2테스트 시점에 GP 활성화를 현대 아키텍처를 통해 어떻게 효율적으로 조건화하고 전파할 수 있는가?
RQ3기준선 대비 회귀, 분류, 분할, 그리고 언어 모델링 등 다양한 작업에서 GAPA 기반 불확실성 추정이 보정 및 OOD 탐지를 개선하는가?
RQ4유도 집합의 크기와 지역성(KNN)이 성능 및 계산에 미치는 영향은 무엇인가?
RQ5깊은 네트워크에서 GAPA를 통한 분산 전파가 포스트에 대한 불확실성을 얼마나 잘 근사하는가?

주요 결과

모델	에어라인 NLL	에어라인 CRPS	에어라인 CQM	연도 NLL	연도 CRPS	연도 CQM	택시 NLL	택시 CRPS	택시 CQM
MAP	5.121	18.695	0.148	3.673	5.023	0.134	3.755	3.755	0.211
LLA Diag	5.125	18.648	0.143	3.647	4.917	0.088	3.722	3.990	0.257
LLA KFAC	5.127	18.631	0.142	3.648	4.915	0.086	3.706	3.986	0.256
LLA*	5.127	18.631	0.141	3.648	4.915	0.086	3.726	3.985	0.256
LLA*KFAC	5.127	18.631	0.141	3.648	4.914	0.086	3.726	3.985	0.256
ELLA	5.388	21.671	0.413	4.020	6.049	0.424	3.885	3.680	0.219
VaLLA100	4.963	18.814	0.099	3.515	5.004	0.047	3.235	3.999	0.149
VaLLA200	4.965	18.788	0.098	3.485	4.970	0.041	3.232	3.979	0.142
Dropout	5.102	19.066	0.938	3.689	5.128	0.939	3.849	4.592	0.951
Ensemble	5.053	18.205	0.933	3.639	4.833	0.938	3.631	3.384	0.961
GAPA	4.946	18.068	0.103	3.470	4.663	0.014	3.112	4.035	0.104

GAPA는 원래 활성화의 평균을 일치시킴으로써 활성 공간의 에피스테믹 분산을 도입하여 평균 보존 불확실성을 달성한다.
오프라인 유도 포인트와 로컬 KNN 조건부를 이용한 단계적이고 확장 가능한 추론은 테스트 시점에 질의당 분산 계산을 상수 시간으로 가능하게 한다.
딥 아키텍처를 통한 결정적 분산 전파는 작업 전반에서 보정 및 OOD 탐지에 경쟁력 있거나 우수한 성능을 보인다.
GAPA는 회귀 벤치마크 Airline, Year, Taxi에서 최상의 음의 로그가능도(NLL) 및 최상 또는 근최상의 보정 지표를 달성하여 다수의 baselines를 능가한다.
MNIST/Fashion-MNIST 및 CIFAR-10에서 ResNet 백본으로의 분류에서, GAPA는 샘플링 기반 또는 전체 GP 방법보다 빠른 테스트 시점 성능으로 강력한 OOD 탐지를 달성하고 종종 MAP 런타임에 근접한다.
트랜스포머의 프리파트에서 GAPA를 사용한 LLaMA 언어 모델링은 추가적인 순전파 없이도 usable한 불확실성 지표를 산출한다.

Figure 2 : GAPA overview. Top: GAPA leaves the network’s point predictions unchanged (mean-preserving activations) while propagating an additional epistemic variance signal to the output. Bottom left: deterministic $\tanh$ activation; orange points denote cached training activations. Bottom right: G

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.