[论文解读] REPLUG: Retrieval-Augmented Black-Box Language Models
RePlug 将语言模型视为黑箱,并用可调取的检索器进行增强,检索文档(带集成投票)并可以对 LM 进行监督以提高检索质量;它在大型 LM 的语言建模及下游任务上提升性能。
We introduce REPLUG, a retrieval-augmented language modeling framework that treats the language model (LM) as a black box and augments it with a tuneable retrieval model. Unlike prior retrieval-augmented LMs that train language models with special cross attention mechanisms to encode the retrieved text, REPLUG simply prepends retrieved documents to the input for the frozen black-box LM. This simple design can be easily applied to any existing retrieval and language models. Furthermore, we show that the LM can be used to supervise the retrieval model, which can then find documents that help the LM make better predictions. Our experiments demonstrate that REPLUG with the tuned retriever significantly improves the performance of GPT-3 (175B) on language modeling by 6.3%, as well as the performance of Codex on five-shot MMLU by 5.1%.
研究动机与目标
- 为极大规模、不可微调或无法访问内部表示的黑箱 LMs 提出检索增强的动机。
- 提出一个即插即用的检索模块,在预测前把检索到的文档前置并进行集成,从而在不修改 LM 的情况下改进预测。
- 引入 RePlug LSR,通过使用 LM 提供的监督信号来适配检索器以降低困惑度。
- 展示在多种黑箱 LM 和任务上(包括语言建模、MMLU 与开放领域问答)的改进。
提出的方法
- 使用密集检索器(双编码器与余弦相似度)从给定输入 x 的语料库中检索前 k 条文档。
- 将每个检索到的文档前置到 x,并将每个 (d, x) 对单独通过冻结的黑箱 LM,对输出概率进行集成。
- 提出一个集成方案,在不增加 LM 参数更新的情况下结合来自多个检索文档的预测。
- 在保持 LM 冻结的同时,介绍 RePlug LSR,通过使用 LM 困惑度作为监督,最小化检索似然与 LM 指导的似然之间的 KL 散度来训练检索器。
- 异步数据存储更新循环使用文档嵌入并在每 T 步重新构建 FAISS 索引,以使检索与检索器更新保持对齐。
- 演示对各种 LM 与检索模型的适用性,包括 GPT-3、Codex、OPT 与 BLOOM。

实验结果
研究问题
- RQ1检索增强方法是否能够在无需微调或内部访问的情况下改善真正的黑箱 LM?
- RQ2将检索到的文档前置并进行集成,是否比将所有检索文档串联在一起更高效地提升下一个标记的预测?
- RQ3是否可以通过 LM 监督(LSR)有效地将检索模型适配到 LM,以进一步提高检索质量?
- RQ4检索增强方法是否有利于非常大规模的 LM 的语言建模以及下游任务,如 MMLU 和开放领域问答?
- RQ5RePlug 在不同的模型家族和大小上表现如何?
主要发现
- RePlug 在语言建模和下游任务上对一系列黑箱 LMs 均有稳定的改进。
- GPT-3 175B 语言建模在 RePlug 下提升至多 6.3%;Codex 在五-shot MMLU 上的提升为 4.5%(RePlug)和 5.1%(RePlug LSR)。
- RePlug LSR 相较于 RePlug 本身带来更大增益(例如 GPT-3 175B 高达 6.3%,并且在表1中的模型平均提升为 7.7% 对 4.7%)。
- 在 MMLU 上,Codex + RePlug 提升了人文、社会、STEM 等类别,分别比 Codex 提高 4.5%(RePlug)和 5.1%(RePlug LSR)。
- 在开放领域问答中,Codex + RePlug LSR 在 few-shot 设置下对 Natural Questions 提升 12.0%,超过 Atlas 等。
- RePlug 在不同尺寸的 GPT-2、OPT、BLOOM 等模型族中均有改进,困惑度下降(例如 OPT-125M 提升 6.9%),显示广泛的适用性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。