[论文解读] REALM: Retrieval-Augmented Language Model Pre-Training
REALM 通过在一个大型文本语料库上对齐一个学习的神经检索器来增强语言模型的预训练,使端到端无监督预训练成为可能,并提升开放域问答的性能。它在三个 Open-QA 基准测试上优于先前的基于检索和基于生成的方法,同时保持中等模型规模。
Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.
研究动机与目标
- 激发在预训练中整合一个潜在的知识检索器,以更模块化地捕捉世界知识。
- 开发一个端到端的检索器和知识增强编码器,使用无监督的 MLM 信号进行训练。
- 在预训练和微调阶段为 Open-QA 任务实现“检索-再预测”流程。
- 展示使用基于 MIPS 的检索和异步索引刷新实现的可扩展性。
- 展示可解释的检索行为和消融研究,以为设计选择提供信息。
提出的方法
- 模型架构将密集检索器与内积打分结合起来,为每个查询选择前 k 条文档。
- 检索器嵌入通过基于 Transformer 的输入 x 编码器和一个单独的文档编码器为 z 来学习,其中 f(x,z) = Embed_input(x) dot Embed_doc(z)。
- 知识增强编码器以检索到的文档为条件来预测 y,使用 x 与 z 之间的交叉注意力。
- 训练通过对前 k 条检索到的文档边际化来优化 p(y|x):p(y|x) = sum_z p(y|x,z) p(z|x)。
- 预训练使用带检索文档的掩码语言模型来预测被遮盖的标记。
- 针对 Open-QA 的微调检索前 k 条文档(top 5),并对它们进行边际化以预测答案区间或标记。
- 为处理大规模语料库,采用最大内积搜索(MIPS)并进行异步索引刷新以保持检索索引的最新性。
实验结果
研究问题
- RQ1能否通过无监督信号训练的潜在知识检索器来改进面向知识密集型任务的语言模型预训练?
- RQ2端到端的 RETRIEVAL-augmented 预训练是否在 Open-QA 基准测试中超越先前的基于检索和基于生成的方法?
- RQ3检索到的文档质量如何影响下游预测和问答的准确性?
- RQ4在预训练期间引导检索的有效归纳偏置有哪些(例如显著跨度 masking)?
- RQ5将基于 MIPS 的检索整合到大规模预训练中是否可扩展且稳定?
主要发现
- REALM 在三个基准测试上相比先前的 Open-QA 方法实现了 4-16 个百分点的绝对提升。
- REALM 的性能超过了最大的 T5-11B 模型,同时规模小了 30 倍。
- 编码器和检索器都从 REALM 预训练中受益,最好的结果来自联合优化。
- 显著跨度 masking 和包含空文档提升检索的有效性和模型性能。
- 异步 MIPS 索引刷新带来更稳定的优化和更好的检索质量。
- REALM 通过展示检索文档如何影响预测,展示了可解释的检索行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。