[論文レビュー] Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals
この論文は、隠れ状態の軌道構造に基づく単一パス・モデル非依存の信頼度推定器Structural Confidenceを導入し、FEVER、SciFact、WikiBio、TruthfulQAで評価した。
Large language models (LLMs) are increasingly deployed in domains where errors carry high social, scientific, or safety costs. Yet standard confidence estimators, such as token likelihood, semantic similarity and multi-sample consistency, remain brittle under distribution shift, domain-specialised text, and compute limits. In this work, we present Structural Confidence, a single-pass, model-agnostic framework that enhances output correctness prediction based on multi-scale structural signals derived from a model's final-layer hidden-state trajectory. By combining spectral, local-variation, and global shape descriptors, our method captures internal stability patterns that are missed by probabilities and sentence embeddings. We conduct extensive, cross-domain evaluation across four heterogeneous benchmarks-FEVER (fact verification), SciFact (scientific claims), WikiBio-hallucination (biographical consistency), and TruthfulQA (truthfulness-oriented QA). Our Structural Confidence framework demonstrates strong performance compared with established baselines in terms of AUROC and AUPR. More importantly, unlike sampling-based consistency methods which require multiple stochastic generations and an auxiliary model, our approach uses a single deterministic forward pass, offering a practical basis for efficient, robust post-hoc confidence estimation in socially impactful, resource-constrained LLM applications.
研究の動機と目的
- Distribution shiftおよびリソース制約下でのLLMの堅牢なポストホック信頼度推定を動機づける。
- 隠れ状態の軌道構造(スペクトル安定性、局所変動、形状整合性)に基づく新しい信頼モダリティを開発する。
- ロジット・勾配・複数サンプルへのアクセスを必要としない、モデル非依存・単一パスの推定器を提供する。
- 確率ベース・埋め込みベース・サンプリングベースのベースラインと比較して跨ドメインでの有効性と効率を示す。
提案手法
- Structural Confidenceを最終層隠れ状態に基づく軌道構造信号として定義する。
- 文脈–回答ペアを入力として固定長の特徴ベクトルを生成する凍結エンコーダ(bert-base-uncased)を用いて代理の隠れ状態軌道を抽出する。
- 三つの系統の構造記述子を計算する:スペクトル安定性(周波数領域とグラフラプラシアンスペクトル)、局所変動(短距離不安定性指標)、形状整合性(グローバル軌道分散)。
- descriptorsを連結して統一の70次元構造特徴ベクトルを作成し、任意でStruct+Sentバリアントでは文章埋め込みと統合する。
- 構造特徴(および任意の意味的特徴)で二項ロジスティック目的の軽量勾配ブースト木推定器(LightGBM)を訓練する。
- 厳密な単一パス・モデル非依存デプロイメントレジーム下で、決定論的なGPT-4o出力と固定代理エンコーダのもとを評価する。

実験結果
リサーチクエスチョン
- RQ1隠れ状態軌道の構造安定性信号は単一パス制約下で競争力のある信頼度推定を達成できるか。
- RQ2ドメインシフトおよび混在ドメイン訓練下で、構造信号は確率・埋め込み・サンプリングベースのベースラインと比べてどの程度性能を維持するか。
- RQ3信号ファミリ、粒度、意味情報の拡張など、強力な信頼推定に不可欠な設計選択はどれか。
主な発見
- Structural ConfidenceはFEVER、SciFact、WikiBioにおいて、確率ベースおよび意味情報ベースのベースラインと比較して強い識別力(AUROCおよびAUPR)を示す。
- 構造信号はドメインシフト下でうまく劣化し、埋め込みベース手法がより大きく失敗するSciFactでも非自明な性能を維持する。
- Struct+Sent構成は実践的な効率性でSelfCheckGPTのような単一パスベースラインと同等以上になることが多く、待機時間とFLOPsが大幅に低い。
- 代理エンコーダアプローチ(Bertベース)はロバストなモデル非依存の軌道信号を生み出し、Out-of-domainのTruthfulQAへ良好に転移する。
- 本手法は決定論的で、単一のフォワードパスのみを必要とし、サンプリングベースの整合性アプローチより計算コストを抑える。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。