[论文解读] RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation
RECOMP 将检索到的文档压缩成简明的文本摘要(在不相关时为“空”),以附在语言模型之前,从而降低成本并在语言建模与开放领域问答中保持性能。它包括使用任务信号训练的抽取式和 abstractive 压缩器,实现有选择性的增强。
Retrieving documents and prepending them in-context at inference time improves performance of language model (LMs) on a wide range of tasks. However, these documents, often spanning hundreds of words, make inference substantially more expensive. We propose compressing the retrieved documents into textual summaries prior to in-context integration. This not only reduces the computational costs but also relieves the burden of LMs to identify relevant information in long retrieved documents. We present two compressors -- an extractive compressor which selects useful sentences from retrieved documents and an abstractive compressor which generates summaries by synthesizing information from multiple documents. Both compressors are trained to improve LMs' performance on end tasks when the generated summaries are prepended to the LMs' input, while keeping the summary concise.If the retrieved documents are irrelevant to the input or offer no additional information to LM, our compressor can return an empty string, implementing selective augmentation.We evaluate our approach on language modeling task and open domain question answering task. We achieve a compression rate of as low as 6% with minimal loss in performance for both tasks, significantly outperforming the off-the-shelf summarization models. We show that our compressors trained for one LM can transfer to other LMs on the language modeling task and provide summaries largely faithful to the retrieved documents.
研究动机与目标
- 在将较长的检索文档前置时,激发对检索增强语言模型的效率挑战。
- 提出两种压缩器(抽取式和 abstractive)以生成针对输入的简明、真实的摘要。
- 开发训练方案,利用黑盒语言模型来优化最终任务性能。
- 通过允许在检索无价值时产生空摘要实现有选择性的增强。
- 展示压缩器在不同语言模型中的可迁移性,并分析其忠实性与证据依赖性。
提出的方法
- 以一个带压缩器 c_theta 和一个黑盒语言模型 M 的 RECOMP 架构为基础。
- 开发抽取式压缩器:一个双编码器,根据输入与内部积的关系选择顶部句子,形成简明摘要。
- 开发 abstractive 压缩器:一个从极大规模语言模型提炼的编码-解码器,用于生成面向查询的摘要。
- 用对比学习损失训练抽取式压缩器,在前置选定句子时最大化语言模型的性能。
- 通过从极大规模教师模型进行蒸馏来训练 abstractive 压缩器,并结合最终任务性能引导的有选择性增强。
- 在问答任务中,使用前置的前五句摘要,或按任务选择,以在效率与效果之间取得平衡。

实验结果
研究问题
- RQ1在将检索文档前置时,能否将其有效压缩为简明摘要以保持或提升最终任务性能?
- RQ2抽取式与 abstractive 压缩策略在语言建模与开放领域问答中,是否呈现不同的效率/效果权衡?
- RQ3在一个语言模型上训练的压缩器能否无重新训练地迁移到其他语言模型?
- RQ4有选择性增强(包括空摘要)是否能缓解来自不相关检索信息的性能下降?
- RQ5在 NQ、TriviaQA、HotpotQA 等任务中,抽象摘要的忠实性与完整性有多高?
主要发现
- 抽取式与 abstractive 压缩器均优于对全文档前置,oracle 情况下压缩率低至令牌的 6%,且性能损失极小。
- 经过对比学习损失训练的抽取式压缩器显著优于 BM25/Contriever 基线,实现约 25% 的压缩并且损失较小。
- 经极大规模语言模型蒸馏得到的 abstractive 压缩器提供最佳压缩,并在大多数情况下表现出色,采用有选择性增强将摘要前置到约三分之一的示例。
- 开放领域问答显示相较于无检索有改进,且受益于有选择性增强;在多跳 HotpotQA 中,抽取式方法常常优于 abstractive 方法。
- 跨语言模型的压缩器迁移现象存在(如从 GPT2 到 GPT2-XL/GPT-J;在某种程度上到 LLaMA-13B),表明具备跨模型适用性。
- 人工忠实性/完整性分析显示 GPT-3.5 的摘要通常更为忠实,而我们 的 abstractive 压缩器在数据集上可能更不忠实但更为全面。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。