[论文解读] Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection
该论文提出一个多答案反思框架(TTA),通过让模型在估计联合置信度分数之前对多个侯选答案进行反思和论证来校准对黑箱LLMs的置信度估计。
Self-detection for Large Language Models (LLMs) seeks to evaluate the trustworthiness of the LLM's output by leveraging its own capabilities, thereby alleviating the issue of output hallucination. However, existing self-detection approaches only retrospectively evaluate answers generated by LLM, typically leading to the over-trust in incorrectly generated answers. To tackle this limitation, we propose a novel self-detection paradigm that considers the comprehensive answer space beyond LLM-generated answers. It thoroughly compares the trustworthiness of multiple candidate answers to mitigate the over-trust in LLM-generated incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each candidate answer, and then aggregates the justifications for comprehensive target answer evaluation. This framework can be seamlessly integrated with existing approaches for superior self-detection. Extensive experiments on six datasets spanning three tasks demonstrate the effectiveness of the proposed framework.
研究动机与目标
- 为黑箱 API LLMs 的置信度校准提供动力,以缓解过度自信和幻觉现象。
- 提出一个多答案评估范式,在若干候选答案之间比较可信度。
- 开发一个两步的 Think Twice Before Assure (TTA) 框架,为每个答案生成论证并执行联合置信度估计。
- 证明 TTA 能改善校准,并在多任务和数据集上提升现有校准方法的效果。
提出的方法
- 提出一个多答案评估范式,考虑一个问题的 N 个候选答案,并聚合它们的评估以细化目标答案的置信度。
- 步骤1:反思与论证,其中 LLM 使用指定提示 p^e 为每个候选答案生成论证。
- 步骤2:联合置信度估计,其中将论证 e_i 通过 Top-K 口头化方法与提示 p^v 集成,以获得目标答案的校准置信度 c。
- TTA 可与现有方法(如 Top-K 口头化、CAPE 或提示集合)结合,以获得进一步的校准提升。
- 实验在六个数据集、覆盖三项任务,使用多种 LLM(GPT-3.5、GPT-4、GLM-4)对比基线来评估 TTA。
实验结果
研究问题
- RQ1相较于单一答案方法,考虑多个候选答案如何影响对 LLM 输出的置信度校准?
- RQ2两步的反思与论证+联合估计框架是否能在现有自我一致性和提示集合方法之上提升校准?
- RQ3TTA 框架在不同任务、数据集和 LLM 上是否鲁棒,并能否与其他校准技术协同?
主要发现
- TTA 在 SA、NLI 和 CQA 任务的多数据集上对多项基线的校准(AUROC 和 PRAUC)有所提升。
- 将 TTA 与 Top-K 口头化或提示集合方法结合,在数据集和模型上进一步提升校准。
- 消融研究表明,联合考虑多条论证并在提示中打乱它们的顺序可提升性能并减少偏差。
- TTA 减少正确答案与错误答案之间置信度分数的重叠,有助于选择性预测场景。
- 在不同的 LLM(GPT-3.5、GPT-4、GLM-4)和目标答案上均观察到性能提升,对提示设计和任务类型存在一定敏感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。