[논문 리뷰] Activation-Space Uncertainty Quantification for Pretrained Networks
GAPA 후-호 방법은 활성화를 Gaussian-process 활성화로 대체하여 활성공간의 에피스테믹 불확실성을 얻는 한편 백본 예측은 유지하고, 사전 학습된 네트워크에 대해 단일 패스 불확실성 전파를 가능하게 한다.
Reliable uncertainty estimates are crucial for deploying pretrained models; yet, many strong methods for quantifying uncertainty require retraining, Monte Carlo sampling, or expensive second-order computations and may alter a frozen backbone's predictions. To address this, we introduce Gaussian Process Activations (GAPA), a post-hoc method that shifts Bayesian modeling from weights to activations. GAPA replaces standard nonlinearities with Gaussian-process activations whose posterior mean exactly matches the original activation, preserving the backbone's point predictions by construction while providing closed-form epistemic variances in activation space. To scale to modern architectures, we use a sparse variational inducing-point approximation over cached training activations, combined with local k-nearest-neighbor subset conditioning, enabling deterministic single-pass uncertainty propagation without sampling, backpropagation, or second-order information. Across regression, classification, image segmentation, and language modeling, GAPA matches or outperforms strong post-hoc baselines in calibration and out-of-distribution detection while remaining efficient at test time.
연구 동기 및 목표
- 재훈련이나 샘플링 없이 사전 학습된 네트워크에 대한 에피스테믹 불확실성을 제공한다.
- 백본의 점 예측을 보존하면서 활성화 공간의 불확실성을 더한다.
- 현대 아키텍처를 위한 확장 가능한 오프라인 활성화 캐싱과 로컬 유도 포인트 조건화를 개발한다.
- 딥 네트워크를 통한 결정적 단일 패스 분산 전파를 도출한다.
- 회귀, 분류, 분할, 그리고 언어 모델링에 걸쳐 GAPA를 실험적으로 검증한다.
제안 방법
- 결정적 활성화를 원래 활성화와 같은 뒤평균을 가지는 가우시안 프로세스 활성화로 대체한다.
- 훈련 데이터에 대한 순전파에서의 프리액티베이션을 캐시하고 이 캐시에 의해 GP 활성화를 유도 포인트와 로컬 최근접 이웃 조건부를 사용해 조건화한다.
- 고정된 네트워크를 통해 결과 활성공간 분산을 닫힌 형식의 분산 전파 규칙으로 전파한다.
- 확장성을 위해 대각선(뉴런별) 활성 공분산을 유지한다.
- 비선형 활성화에는 델타-방법 기반 모멘트 전파를 사용하고 층을 쌓을 때 Noisy-Input GP 보정을 적용한다.
- 하이퍼파라미터는 활성화 통계로부터 후처리로 고정되며 재훈련이나 라벨이 필요 없다.

실험 결과
연구 질문
- RQ1활성화 공간 불확실성이 재훈련이나 샘플링 없이도 사전 학습된 네트워크에 대해 정확한 에피스테믹 추정을 제공할 수 있는가?
- RQ2테스트 시점에 GP 활성화를 현대 아키텍처를 통해 어떻게 효율적으로 조건화하고 전파할 수 있는가?
- RQ3기준선 대비 회귀, 분류, 분할, 그리고 언어 모델링 등 다양한 작업에서 GAPA 기반 불확실성 추정이 보정 및 OOD 탐지를 개선하는가?
- RQ4유도 집합의 크기와 지역성(KNN)이 성능 및 계산에 미치는 영향은 무엇인가?
- RQ5깊은 네트워크에서 GAPA를 통한 분산 전파가 포스트에 대한 불확실성을 얼마나 잘 근사하는가?
주요 결과
| 모델 | 에어라인 NLL | 에어라인 CRPS | 에어라인 CQM | 연도 NLL | 연도 CRPS | 연도 CQM | 택시 NLL | 택시 CRPS | 택시 CQM |
|---|---|---|---|---|---|---|---|---|---|
| MAP | 5.121 | 18.695 | 0.148 | 3.673 | 5.023 | 0.134 | 3.755 | 3.755 | 0.211 |
| LLA Diag | 5.125 | 18.648 | 0.143 | 3.647 | 4.917 | 0.088 | 3.722 | 3.990 | 0.257 |
| LLA KFAC | 5.127 | 18.631 | 0.142 | 3.648 | 4.915 | 0.086 | 3.706 | 3.986 | 0.256 |
| LLA* | 5.127 | 18.631 | 0.141 | 3.648 | 4.915 | 0.086 | 3.726 | 3.985 | 0.256 |
| LLA*KFAC | 5.127 | 18.631 | 0.141 | 3.648 | 4.914 | 0.086 | 3.726 | 3.985 | 0.256 |
| ELLA | 5.388 | 21.671 | 0.413 | 4.020 | 6.049 | 0.424 | 3.885 | 3.680 | 0.219 |
| VaLLA100 | 4.963 | 18.814 | 0.099 | 3.515 | 5.004 | 0.047 | 3.235 | 3.999 | 0.149 |
| VaLLA200 | 4.965 | 18.788 | 0.098 | 3.485 | 4.970 | 0.041 | 3.232 | 3.979 | 0.142 |
| Dropout | 5.102 | 19.066 | 0.938 | 3.689 | 5.128 | 0.939 | 3.849 | 4.592 | 0.951 |
| Ensemble | 5.053 | 18.205 | 0.933 | 3.639 | 4.833 | 0.938 | 3.631 | 3.384 | 0.961 |
| GAPA | 4.946 | 18.068 | 0.103 | 3.470 | 4.663 | 0.014 | 3.112 | 4.035 | 0.104 |
- GAPA는 원래 활성화의 평균을 일치시킴으로써 활성 공간의 에피스테믹 분산을 도입하여 평균 보존 불확실성을 달성한다.
- 오프라인 유도 포인트와 로컬 KNN 조건부를 이용한 단계적이고 확장 가능한 추론은 테스트 시점에 질의당 분산 계산을 상수 시간으로 가능하게 한다.
- 딥 아키텍처를 통한 결정적 분산 전파는 작업 전반에서 보정 및 OOD 탐지에 경쟁력 있거나 우수한 성능을 보인다.
- GAPA는 회귀 벤치마크 Airline, Year, Taxi에서 최상의 음의 로그가능도(NLL) 및 최상 또는 근최상의 보정 지표를 달성하여 다수의 baselines를 능가한다.
- MNIST/Fashion-MNIST 및 CIFAR-10에서 ResNet 백본으로의 분류에서, GAPA는 샘플링 기반 또는 전체 GP 방법보다 빠른 테스트 시점 성능으로 강력한 OOD 탐지를 달성하고 종종 MAP 런타임에 근접한다.
- 트랜스포머의 프리파트에서 GAPA를 사용한 LLaMA 언어 모델링은 추가적인 순전파 없이도 usable한 불확실성 지표를 산출한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.