[论文解读] Benchmarking LLMs via Uncertainty Quantification
本文提出了一种使用一致性预测的对开源大语言模型进行不确定性感知基准测试的框架,提出了新的度量 UAcc,将准确率与不确定性结合。
The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves nine LLMs (LLM series) spanning five representative natural language processing tasks. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
研究动机与目标
- 动机是在评估大型语言模型时不仅要考虑准确性,还要考虑不确定性。
- 提出一种基于一致性预测的LLMs不确定性量化方法。
- 在五个NLP任务中使用MCQA改写对八个开源LLM进行基准测试。
- 引入并验证不确定性感知的准确性(UAcc)指标。
提出的方法
- 将五个NLP任务转换为多项选择题,以从LLMs获得每个选项的softmax分数。
- 应用具有两个一致性分数(LAC 和 APS)的一致性预测,以产生具有覆盖保证的预测集合。
- 在三种提示策略(Base、Shared Instruction、Task-specific Instruction)下比较基础预训练与指令微调的LLM变体。
- 使用准确率(Acc)、集合大小(SS)和不确定性感知准确性(UAcc,定义为 Acc/SS * sqrt(|Y|)进行评估。
- 研究模型规模、指令微调和校准数据比例对不确定性和性能的影响。

实验结果
研究问题
- RQ1在多样化的LLM中,用一致性预测量化的不确定性与传统准确性之间的关系是怎样的?
- RQ2在实际基准测试中,较大的模型规模是增加还是减少不确定性?
- RQ3指令微调如何影响准确性、不确定性以及所提出的 UAcc 指标?
- RQ4UAcc 是否会改变相对于仅基于准确性的LLM排序?
- RQ5校准数据比例对不确定性量化有何影响?
主要发现
- 在实践中,准确性更高的LLM可能呈现出更高的不确定性。
- 在某些任务中,较大规模的LLM可能表现出比较小模型更大的不确定性。
- 指令微调往往会增加不确定性。
- UAcc 指标可能放大或抑制相对改进,并可能改变排名。
- 在他们的设置中,校准数据比例对覆盖率、SS 和 UAcc 的影响很小。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。