[論文レビュー] Activation-Space Uncertainty Quantification for Pretrained Networks
GAPA後処理法は活性をガウス過程活性に置換して活性空間のエピステミック不確実性を得つつ、バックボーン予測を保持する。事前学習済みネットワークに対する単一パス推論で不確実性を伝搬する。
Reliable uncertainty estimates are crucial for deploying pretrained models; yet, many strong methods for quantifying uncertainty require retraining, Monte Carlo sampling, or expensive second-order computations and may alter a frozen backbone's predictions. To address this, we introduce Gaussian Process Activations (GAPA), a post-hoc method that shifts Bayesian modeling from weights to activations. GAPA replaces standard nonlinearities with Gaussian-process activations whose posterior mean exactly matches the original activation, preserving the backbone's point predictions by construction while providing closed-form epistemic variances in activation space. To scale to modern architectures, we use a sparse variational inducing-point approximation over cached training activations, combined with local k-nearest-neighbor subset conditioning, enabling deterministic single-pass uncertainty propagation without sampling, backpropagation, or second-order information. Across regression, classification, image segmentation, and language modeling, GAPA matches or outperforms strong post-hoc baselines in calibration and out-of-distribution detection while remaining efficient at test time.
研究の動機と目的
- 再学習やサンプリングなしで事前学習済みネットワークにエピステミック不確実性を提供する。
- バックボーンの点予測を保持しつつ、活性空間不確実性を追加する。
- 現代的なアーキテクチャ向けのスケーラブルなオフライン活性キャッシュとローカル誘導点条件づけを開発する。
- 深いネットワークを通じた決定論的な単一パス分散伝搬を導出する。
- 回帰、分類、セマンティックセグメンテーション、言語モデル化の各領域でGAPAを経験的に検証する。
提案手法
- 決定論的活性を、元の活性と平均が一致するガウス過程活性へ置換する。
- トレーニングデータ上のフォワードパスから事前活性をキャッシュし、インデューシングポイントと局所最近傍条件付けを用いてGP活性をこのキャッシュで条件付けする。
- 凍結されたネットワーク上で、得られた活性空間の分散を閉形式の分散伝搬規則を用いて伝搬する。
- スケーラビリティのために対角的なニューロン毎の活性共分散を維持する。
- 非線形活性に対してはデルタ法ベースのモーメント伝搬を用い、層を積み重ねる際にはNoisy-Input GP補正を用いる。
- ハイパーパラメータは活性統計から後処理的に固定され、再学習やラベルは不要。

実験結果
リサーチクエスチョン
- RQ1再学習やサンプリングなしで活性空間の不確実性は、事前学習済みネットワークに対して正確なエピステミック推定を提供できるか。
- RQ2試験時にGP活性を効率的に条件付けし、現代的なアーキテクチャを通して伝搬するにはどうするか。
- RQ3GAPAベースの不確実性推定は、回帰・分類・セグメンテーション・言語モデル化の各タスクでベースラインと比較してキャリブレーションとOOD検出を改善するか。
- RQ4誘導集合のサイズと局所性(KNN)が性能と計算量に及ぼす影響はどの程度か。
- RQ5GAPAを通じた分散伝搬は、深層ネットワークにおける後方不確実性をどれだけ近似できるか。
主な発見
| Model | Airline NLL | Airline CRPS | Airline CQM | Year NLL | Year CRPS | Year CQM | Taxi NLL | Taxi CRPS | Taxi CQM |
|---|---|---|---|---|---|---|---|---|---|
| MAP | 5.121 | 18.695 | 0.148 | 3.673 | 5.023 | 0.134 | 3.755 | 3.755 | 0.211 |
| LLA Diag | 5.125 | 18.648 | 0.143 | 3.647 | 4.917 | 0.088 | 3.722 | 3.990 | 0.257 |
| LLA KFAC | 5.127 | 18.631 | 0.142 | 3.648 | 4.915 | 0.086 | 3.706 | 3.986 | 0.256 |
| LLA* | 5.127 | 18.631 | 0.141 | 3.648 | 4.915 | 0.086 | 3.726 | 3.985 | 0.256 |
| LLA*KFAC | 5.127 | 18.631 | 0.141 | 3.648 | 4.914 | 0.086 | 3.726 | 3.985 | 0.256 |
| ELLA | 5.388 | 21.671 | 0.413 | 4.020 | 6.049 | 0.424 | 3.885 | 3.680 | 0.219 |
| VaLLA100 | 4.963 | 18.814 | 0.099 | 3.515 | 5.004 | 0.047 | 3.235 | 3.999 | 0.149 |
| VaLLA200 | 4.965 | 18.788 | 0.098 | 3.485 | 4.970 | 0.041 | 3.232 | 3.979 | 0.142 |
| Dropout | 5.102 | 19.066 | 0.938 | 3.689 | 5.128 | 0.939 | 3.849 | 4.592 | 0.951 |
| Ensemble | 5.053 | 18.205 | 0.933 | 3.639 | 4.833 | 0.938 | 3.631 | 3.384 | 0.961 |
| GAPA | 4.946 | 18.068 | 0.103 | 3.470 | 4.663 | 0.014 | 3.112 | 4.035 | 0.104 |
- GAPAは元の活性平均を一致させつつ、活性空間のエピステミック不確実性を導入することで平均を保持する不確実性を達成した。
- 事前インデューシングポイントと局所KNN条件付けを用いた2段階のスケーラブル推論により、試験時のクエリ毎の分散計算を定数時間で実現する。
- 深層アーキテクチャを通じた決定論的分散伝搬は、タスク間で競争力のあるまたは優れたキャリブレーションとOOD検出を生む。
- GAPAは回帰ベンチマーク Airline、Year、Taxiで最良の負対数尤度(NLL)と最良またはほぼ最良のキャリブレーション指標を達成し、多くのベースラインを上回った。
- MNIST/Fashion-MNISTおよびCIFAR-10でResNetバックボーンを用いた分類では、サンプリングベースや完全GP法よりも試験時の性能が高速で、しばしばMAPランタイムに近い。
- 前置のトランスフォーマー部分でGAPAを用いたLLaMA言語モデルは、追加のフォワードパスなしで実用的な不確実性指標を得られる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。