[论文解读] Making Retrieval-Augmented Language Models Robust to Irrelevant Context
本文分析了检索增强语言模型(RALMs)如何被无关的检索上下文所损害,并提出两种提高鲁棒性的方法:一个基于NLI的过滤基线,以及一种使用混合相关与无关上下文的训练数据进行微调的方法。
Retrieval-augmented language models (RALMs) hold promise to produce language understanding systems that are are factual, efficient, and up-to-date. An important desideratum of RALMs, is that retrieved information helps model performance when it is relevant, and does not harm performance when it is not. This is particularly important in multi-hop reasoning scenarios, where misuse of irrelevant evidence can lead to cascading errors. However, recent work has shown that retrieval augmentation can sometimes have a negative effect on performance. In this work, we present a thorough analysis on five open-domain question answering benchmarks, characterizing cases when retrieval reduces accuracy. We then propose two methods to mitigate this issue. First, a simple baseline that filters out retrieved passages that do not entail question-answer pairs according to a natural language inference (NLI) model. This is effective in preventing performance reduction, but at a cost of also discarding relevant passages. Thus, we propose a method for automatically generating data to fine-tune the language model to properly leverage retrieved passages, using a mix of relevant and irrelevant contexts at training time. We empirically show that even 1,000 examples suffice to train the model to be robust to irrelevant contexts while maintaining high performance on examples with relevant ones.
研究动机与目标
- 评估无关的检索上下文如何在开放领域问答基准上损害 RALM 的性能。
- 提出在不重新训练模型的情况下识别并缓解无关上下文的方法。
- 证明使用生成数据进行适度微调可在单跳和多跳问答任务中提升鲁棒性。
提出的方法
- 通过基于NLI的回退机制实现模型无关的鲁棒性,该机制过滤掉被认定与问答对无关的检索段落。
- 一个数据生成流水线,用于微调大型语言模型,使用一个小型、自动生成的数据集创建检索增强的分解(单跳和多跳)。
- 在1,000个单跳或500个多跳示例上,对 Llama-2-13B 进行微调,使用混合相关/无关上下文,并与较大模型进行比较。
- 通过在五个ODQA基准上测试使用Top-1、低排名和随机检索段落,以及 ColBERTV2 检索器,来评估鲁棒性。
- 分析错误,以对无关上下文何时导致失败以及鲁棒性训练如何缓解这些错误进行分类。

实验结果
研究问题
- RQ1在无关时,检索上下文如何影响 RALM 在开放域问答基准上的性能?
- RQ2一个简单的基于NLI的过滤器是否能够在不训练LLM的情况下可靠地识别无关的检索段落?
- RQ3使用相关与无关上下文混合进行微调是否能在不牺牲相关情形性能的前提下提升检索鲁棒性?
- RQ4需要多少训练样本才能在单跳和多跳问答中实现对嘈杂检索的鲁棒性?
- RQ5鲁棒性提升是否在不同检索器(Google Search、ColBERTV2)和不同模型规模下保持?
主要发现
- 检索增强在若干基准上可能降低性能,即使检索器很强。
- 基于NLI的回退可以识别无关的上下文并防止性能下降,但可能会舍弃一些相关段落。
- 使用自动生成的数据进行微调,使相关和无关上下文混合,能够在各数据集上实现鲁棒性能,超越基线。
- 鲁棒模型在面对随机或低排名的检索上下文时保持或提高准确性,表明对嘈杂检索有更强的抵抗力。
- 在混合上下文条件下训练的模型优于基于提示的基线,并在top-1以及嘈杂检索设置下均表现出鲁棒性。
- 小型NLI模型能够有效识别无关证据,但在检索真正有帮助时可能会降低收益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。