[论文解读] Active Retrieval Augmented Generation
FLARE 引入一个前瞻性、主动检索框架,在长-form 生成过程中决定何时以及检索哪些信息,从而在多知识密集任务上提升事实性和覆盖面。与基线在四个长表数据集上显示出优越或具竞争力的表现。
Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one promising solution. Most existing retrieval augmented LMs employ a retrieve-and-generate setup that only retrieves information once based on the input. This is limiting, however, in more general scenarios involving generation of long texts, where continually gathering information throughout generation is essential. In this work, we provide a generalized view of active retrieval augmented generation, methods that actively decide when and what to retrieve across the course of the generation. We propose Forward-Looking Active REtrieval augmented generation (FLARE), a generic method which iteratively uses a prediction of the upcoming sentence to anticipate future content, which is then utilized as a query to retrieve relevant documents to regenerate the sentence if it contains low-confidence tokens. We test FLARE along with baselines comprehensively over 4 long-form knowledge-intensive generation tasks/datasets. FLARE achieves superior or competitive performance on all tasks, demonstrating the effectiveness of our method. Code and datasets are available at https://github.com/jzbjyb/FLARE.
研究动机与目标
- 激发在长篇生成中持续信息收集的需求,以减少幻觉。
- 提出一个通用的主动检索框架,在生成过程中决定何时以及检索什么。
- 引入 FLARE,它利用前瞻性信号触发检索并重新生成文本。
- 在四个长篇知识密集任务上评估 FLARE 以评估通用性和有效性。
提出的方法
- 将主动检索增强生成形式化,其中检索查询在生成步骤基于先前上下文与输出生成。
- 提出两种 FLARE 变体:FLARE_instruct 使用检索-指令提示来引出查询;FLARE_direct 使用下一句生成来触发检索。
- 在 FLARE_direct 中,生成一个临时的下一句,如果置信度低则触发检索,然后用检索到的文献重新生成该句子。
- 使用置信度/概率阈值来决定何时检索(theta)以及何时在不检索的情况下继续。
- 将查询基于下一句或从低置信区间推导出的遮蔽/显式问题来减少检索中的噪声。
- 使用现成的检索器评估(Wikipedia 转储上的 BM25;用于开放网络的 Bing)以及 GPT-3.5 text-davinci-003 作为语言模型。
实验结果
研究问题
- RQ1一个主动检索策略在何时检索的决策是否能提升长篇、知识密集型生成?
- RQ2不同的查询形式(下一句、遮蔽令牌、显式问题)如何影响检索质量与生成保真性?
- RQ3向前的检索是否比将过去的上下文作为查询更有效于长篇生成任务?
- RQ4检索频率(通过阈值 theta)对性能与效率有何影响?
主要发现
| 数据集 | EM | F1 | 精确度 | 召回率 |
|---|---|---|---|---|
| 不检索 | 28.2 | 36.8 | 36.5 | 38.6 |
| 单次检索 | 39.4 | 48.8 | 48.6 | 51.5 |
| 多次检索(前一窗口) | 43.2 | 52.3 | 51.7 | 54.5 |
| 多次检索(前一句) | 39.0 | 49.2 | 48.9 | 51.8 |
| FLARE_instruct | 42.4 | 49.8 | 49.1 | 52.5 |
| FLARE_direct | 51.0 | 59.7 | 59.1 | 62.6 |
- FLARE 在四个长篇知识密集任务上相对于单次和多次基线表现出色或具竞争力。
- 在 2WikiMultihopQA 上,FLARE_direct 取得了列出基线中的最高 EM(51.0)和 F1(59.7)。
- 在 StrategyQA、ASQA、ASQA-hint 与 WikiAsp 上,FLARE 方法在关键指标上优于基线,显示出泛化能力。
- 前瞻性检索(以下一句作为查询)在消融实验中优于使用过去上下文作为查询的检索。
- 在检索前对低置信度 token 进行遮蔽可提升相较于使用完整下一句作为查询的性能。
- 针对低置信度区间的显式生成问题在性能上与隐式遮蔽相当,提供了灵活的查询形式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。