Skip to main content
QUICK REVIEW

[论文解读] Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty

Kaitlyn Zhou, Jena D. Hwang|arXiv (Cornell University)|Jan 12, 2024
Topic Modeling被引用 8
一句话总结

本论文显示公开部署的语言模型很少表达不确定性,在被提示时往往过度自信地给出关于认知性标记的回答,最终用户强烈依赖LM的确定性,而RLHF偏见促成了过度自信。

ABSTRACT

As natural language becomes the default interface for human-AI interaction, there is a need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence in responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are reluctant to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (an average of 47%) among confident responses. We test the risks of LM overconfidence by conducting human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in post training alignment and find that humans are biased against texts with uncertainty. Our work highlights new safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.

研究动机与目标

  • 评估公开部署的语言模型在回答问题时表达认知性标记的方式。
  • 评估最终用户在现实任务中对LM生成的不确定性的解释和依赖程度。
  • 识别LM过度自信的根源,并提出更安全的人LM交互的缓解策略。

提出的方法

  • 用开放式提示对LMs(GPT、LLaMA-2、Claude)进行提示,以在MMLU风格的问题中引出认知性标记。
  • 通过正则表达式和人工标注,对生成的标记进行定性编码和分类,将其分为加强者和削弱者。
  • 进行人工参与者实验(经过校准、过度自信、欠自信设置),以衡量用户对LM推断的认知性标记的依赖。
  • 通过比较GPT和LLaMA-2家族的基础模型、SFT、RLHF模型,分析RLHF过程并评估奖励模型和注释者偏差。

实验结果

研究问题

  • RQ1语言模型在回答问题时是否表达不确定性,提示如何影响这种表达?
  • RQ2最终用户如何解读LM生成的认知性标记,这如何影响依赖性和表现?
  • RQ3模型过度自信的根源,特别是在RLHF管线中,如何进行缓解?

主要发现

  • 基线提示下,LM不愿使用认知性标记,主要输出简单陈述。
  • 明确的提示表达确定性会导致过度自信、经常错误的输出(平均高信心错误率)。
  • 人类用户高度依赖LM生成的确定性标记,甚至是简单陈述,存在过度依赖的风险。
  • 经校准的认知性标记使用户学会依赖标记,但过度自信的LM输出会损害长期用户判断。
  • RLHF过程通过奖赏建模和注释者偏好对不确定性形成的偏见,促成过度自信。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。