[论文解读] Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals
该论文提出了一种基于隐藏状态轨迹结构的单通道、模型无关的置信度估计器,用于LLM输出,在FEVER、SciFact、WikiBio和TruthfulQA上进行了评估。
Large language models (LLMs) are increasingly deployed in domains where errors carry high social, scientific, or safety costs. Yet standard confidence estimators, such as token likelihood, semantic similarity and multi-sample consistency, remain brittle under distribution shift, domain-specialised text, and compute limits. In this work, we present Structural Confidence, a single-pass, model-agnostic framework that enhances output correctness prediction based on multi-scale structural signals derived from a model's final-layer hidden-state trajectory. By combining spectral, local-variation, and global shape descriptors, our method captures internal stability patterns that are missed by probabilities and sentence embeddings. We conduct extensive, cross-domain evaluation across four heterogeneous benchmarks-FEVER (fact verification), SciFact (scientific claims), WikiBio-hallucination (biographical consistency), and TruthfulQA (truthfulness-oriented QA). Our Structural Confidence framework demonstrates strong performance compared with established baselines in terms of AUROC and AUPR. More importantly, unlike sampling-based consistency methods which require multiple stochastic generations and an auxiliary model, our approach uses a single deterministic forward pass, offering a practical basis for efficient, robust post-hoc confidence estimation in socially impactful, resource-constrained LLM applications.
研究动机与目标
- 在分布偏移和资源约束下,激发对LLMs的鲁棒后验置信度估计。
- 开发基于隐藏状态轨迹结构的新的置信模态(频谱稳定性、局部变化、形状一致性)。
- 提供一个模型无关、单通道估计器,不需要访问logits、梯度或多次采样。
- 在跨领域的有效性与效率方面,与基于概率、嵌入和采样的基线进行对比。
提出的方法
- 将Structural Confidence定义为从最终层隐藏状态导出的轨迹结构置信号。
- 使用冻结的编码器(bert-base-uncased)对上下文–答案对进行前向,得到固定长度特征向量,提取代理隐藏状态轨迹。
- 计算三类结构描述符:频谱稳定性(频域与图拉普拉斯谱)、局部变化(短程不稳定性指标)、形状一致性(全局轨迹离散度)。
- 通过拼接描述符形成统一的70维结构特征向量;可选与句子嵌入融合,形成Struct+Sent变体。
- 在结构特征(可选语义特征)上,训练一个轻量的梯度提升树估计器(LightGBM),目标为二分类逻辑回归。
- 在严格的单通道、模型无关部署场景下进行评估,输出为确定性的GPT-4o,并使用固定代理编码器。

实验结果
研究问题
- RQ1在单通道约束下,隐藏状态轨迹的结构稳定性信号是否能实现具有竞争力的置信度估计?
- RQ2在域迁移与混合域训练下,结构信号相对于基于概率、嵌入和采样的基线表现如何?
- RQ3哪些设计选择(信号家族、粒度、语义增强)对强置信估计至关重要?
主要发现
- 与概率和语义基线相比,Structural Confidence 在FEVER、SciFact和WikiBio上具有较强的区分能力(AUROC和AUPR)。
- 在域迁移时,结构信号退化表现可控,在SciFact上仍保持非平凡的性能,而嵌入式方法的性能下降更为显著。
- 融合集Struct+Sent的配置在实际效率方面常能匹配甚至超过如SelfCheckGPT等单通道基线,且延迟与FLOPs显著降低。
- 代理编码器方法(基于Bert)提供鲁棒的、模型无关的轨迹信号,能够良好迁移到域外的TruthfulQA。
- 该方法是确定性的、仅需一次前向传播,并且比基于采样的一致性方法具有更低的计算成本。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。