Skip to main content
QUICK REVIEW

[論文レビュー] Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Zvi Badash, Yonatan Belinkov|arXiv (Cornell University)|Mar 17, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

論文は、内部表現を跨ぐ層間 KL ダイバージェンス署名を用いた、LLM のコンパクトなインスタンス別不確実性推定器を提案する。軽量モデルで学習し、1 回のフォワードパスで正誤を予測。分布内での性能は競合的で、プローブ基準と比較してタスク間転移と量子化耐性で優位。

ABSTRACT

Large language models (LLMs) are often confidently wrong, making reliable uncertainty estimation (UE) essential. Output-based heuristics are cheap but brittle, while probing internal representations is effective yet high-dimensional and hard to transfer. We propose a compact, per-instance UE method that scores cross-layer agreement patterns in internal representations using a single forward pass. Across three models, our method matches probing in-distribution, with mean diagonal differences of at most $-1.8$ AUPRC percentage points and $+4.9$ Brier score points. Under cross-dataset transfer, it consistently outperforms probing, achieving off-diagonal gains up to $+2.86$ AUPRC and $+21.02$ Brier points. Under 4-bit weight-only quantization, it remains robust, improving over probing by $+1.94$ AUPRC points and $+5.33$ Brier points on average. Beyond performance, examining specific layer--layer interactions reveals differences in how disparate models encode uncertainty. Altogether, our UE method offers a lightweight, compact means to capture transferable uncertainty in LLMs.

研究の動機と目的

  • LLM の不確実性推定 (UE) を信頼性あるものにして、過信的で誤った出力を減らす。
  • 内部表現における層間の一致パターンに基づくコンパクトなインスタンス別 UE 手法を紹介。
  • 転送可能性を持つ情報理論的署名を提供し、タスクやデータセット間の転送を可能にする。
  • 分布シフトと4ビット重み量子化の下での頑健性を、複数モデル・タスクで評価する。

提案手法

  • MLP 後の活性化を温度スケーリング済み softmax により層ごとの確率分布へ変換。
  • タスク関連トークンに対して L x L の層間 DIRECTED KL ダイバージェンス署名マップ S^(t) を構築。
  • 任意でコントラスト変換を適用して S'^(t) を得、特徴ベクトル z^(t) に平坦化。
  • 軽量な LightGBM 分類器を z^(t) 上で学習し正誤を予測、インスタンスごとの不確実性 u(x) = 1 - P(correct|z^(t)) を出力。
  • 閾値フリーの誤り検出の評価には AUPRC、確率的品質には Brier スコアを用い、タスクごとの較正は行わない。

実験結果

リサーチクエスチョン

  • RQ1推論時に層間分散署名は正誤に関する転用可能な信号を捉えられるか。
  • RQ2提案手法の署名ベース UE は、分布内および跨タスク転送設定でプロービング基準と比較してどうなるか。
  • RQ34-bit 重みのみの量子化等のデプロイ制約に対して頑健性はあるか。
  • RQ4層間相互作用は層間で不確実性を符号化するモデル固有のパターンを明らかにするか。

主な発見

ModelMetricWithin-dataset (Diagonal, pp)Across-dataset (Off-diagonal, pp)
Llama-3.1-8BAUPRC-1.802.86
Llama-3.1-8BBrier4.8821.02
Qwen3-14BAUPRC-1.370.95
Qwen3-14BBrier1.524.35
Mistral-7B-v0.3AUPRC-1.721.35
Mistral-7B-v0.3Brier3.384.28
  • 分布内性能: 署名法は AUPRC でプロービングと同程度、Brier スコアはより良く、確率的キャリブレーションが改善。
  • 跨タスク転送: オフダイアゴナルの利得により、転送性能がプロービングより改善(AUPRC で最大 2.86pp、Brier で最大 21.02 点)
  • 量子化耐性: 4-bit 量子化下でも署名法は AUPRC を維持し、プロービングより平均的に Brier スコアを改善。
  • モデル分析では層–層の相互作用が異なる LLM で異なる不確実性パターンを符号化することを示唆、不確実性信号の解釈性を提供。
  • 表現の効率性: L x L の署名マップは、競合手法よりはるかに少ないパラメータで、競争力のある性能を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。