[论文解读] Rethinking with Retrieval: Faithful Large Language Model Inference
本论文提出一种后处理方法,使用链式思考提示生成推理路径,为每步检索外部知识,并在不进行任何训练或微调的情况下选择最可信的预测。
Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.
研究动机与目标
- 动机:由于存储知识不完整或过时,需补充外部知识来增强LLMs。
- 引入一种后处理方法(Rethinking with Retrieval, RR),利用链式思考推理来引导对外部知识库的检索。
- 证明RR在多种推理任务中在不进行训练或微调的情况下提升忠实性与预测准确性。
- 在三个任务(常识、时间、表格)上使用GPT-3和各种知识源评估RR。
- 提供变体和限制的分析,以指导知识增强的LLM 推断的未来工作。
提出的方法
- 使用链式思考提示生成多样化的推理路径(R1,...,RN),并给出解释Ei与预测Pi。
- 对每个推理路径检索外部知识库KB:对解释中的句子应用BM25,利用MPNet选择相似段落,并用神经蕴含模型进行评分以获得 f_KB(Ri)。
- 通过在各路径中选择具有最大忠实性分数的Pi来计算最终预测(公式1)。
- 检索基于分解的推理步骤,而非原始查询,即使在长而复杂的提示下也能实现忠实推断。
- 将RR作为后处理步骤进行评估,不需要对LLM进行训练或微调。
- 在三个推理任务和多种知识库(Wikipedia, Wikidata, WordNet, ConceptNet)上进行实验,并与零-shot、少量-shot、CoT和自一致性基线进行比较。
实验结果
研究问题
- RQ1RR是否在不额外训练的情况下提升解释的忠实性和预测的准确性,适用于多样的推理任务?
- RQ2基于推理步骤的分解检索是否比基于查询的检索在知识增强方面更有效?
- RQ3在不同外部知识源下,RR在常识、时间和表格推理中的表现如何?
- RQ4在实际应用中,RR的权衡与限制是什么?
主要发现
- RR在常识、时间和表格推理上始终优于所有基线,且无需额外训练。
- 基于分解的检索在准确性和忠实性方面均优于基于查询的检索。
- 在RR中使用外部知识可提升解释的忠实性和跨任务的预测准确性。
- RR在所有三个评估任务上均比CoT提示和自一致性具有更高的准确性。
- 该方法在不同的LM规模下仍然有效,表明对模型规模具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。