[论文解读] Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach
本文将对 LLM 的不确定性估计建模为一个有监督的任务,利用隐藏激活与概率相关特征,从而在 black-box、grey-box 与 white-box 体系中实现更好的不确定性评分。它展示了在 NLP 任务中的分布外设置的可迁移性。
In this paper, we study the problem of uncertainty estimation and calibration for LLMs. We begin by formulating the uncertainty estimation problem, a relevant yet underexplored area in existing literature. We then propose a supervised approach that leverages labeled datasets to estimate the uncertainty in LLMs' responses. Based on the formulation, we illustrate the difference between the uncertainty estimation for LLMs and that for standard ML models and explain why the hidden neurons of the LLMs may contain uncertainty information. Our designed approach demonstrates the benefits of utilizing hidden activations to enhance uncertainty estimation across various tasks and shows robust transferability in out-of-distribution settings. We distinguish the uncertainty estimation task from the uncertainty calibration task and show that better uncertainty estimation leads to better calibration performance. Furthermore, our method is easy to implement and adaptable to different levels of model accessibility including black box, grey box, and white box.
研究动机与目标
- 将 LLM 的不确定性估计公式化并将其与标准 ML 不确定性校准区分开来。
- 提出一种简单的有监督方法,使用隐藏激活和基于概率的特征来预测 LLM 的响应质量。
- 证明隐藏层信息在跨 NLP 任务和设置中提升不确定性估计。
- 展示方法在 black-box、grey-box 和 white-box 体系下的可迁移性与实用性。
提出的方法
- 定义一个 不确定性函数 g,将 prompts 和 responses 映射到一个不确定性分数。
- 从 white-box(隐藏层激活)和 grey-box(熵/概率)来源 构造特征。
- 使用带有响应质量 z 的带标签数据训练一个有监督模型来预测不确定性分数。
- 根据是否可以访问模型内部信息,提出在三种体系(white-box、grey-box、black-box)下应用该方法的情境。
- 提供一个算法化的事后不确定性估计流程,在黑箱设置中可利用其他 LLM 进行特征提取。
实验结果
研究问题
- RQ1如何将 LLM 的不确定性估计框定为一个有监督学习任务?
- RQ2LLM 的隐藏激活是否包含可用于预测响应不确定性的有用信息?
- RQ3所提出的有监督方法能否在 black-box、grey-box 和 white-box 情境以及跨任务中泛化?
- RQ4改进的不确定性估计与校准性能之间的关系是什么?
主要发现
- 使用隐藏激活提升了在问答、选择题和机器翻译任务中的不确定性估计。
- 该方法在分布内和分布外数据上均保持有效。
- White-box 和 grey-box 情境在利用内部信息和带标签数据方面优于 black-box。
- 更好的不确定性估计模型往往带来更好的校准性能。
- 该方法易于实现,且可适应不同透明度级别的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。