[论文解读] Pruning the Index Contents for Memory Efficient Open-Domain QA
本文提出 R2-D2,一种内存高效的开放域问答流水线,通过基于内容的剪枝方法,利用二元相关性分类器将大规模知识库减少 92%,在 NaturalQuestions 数据集上仅损失 3% 的 EM 准确率,同时可容纳于 6GB 的 Docker 镜像中,达到当前最先进性能。
This work presents a novel pipeline that demonstrates what is achievable with a combined effort of state-of-the-art approaches. Specifically, it proposes the novel R2-D2 (Rank twice, reaD twice) pipeline composed of retriever, passage reranker, extractive reader, generative reader and a simple way to combine them. Furthermore, previous work often comes with a massive index of external documents that scales in the order of tens of GiB. This work presents a simple approach for pruning the contents of a massive index such that the open-domain QA system altogether with index, OS, and library components fits into 6GiB docker image while retaining only 8% of original index contents and losing only 3% EM accuracy.
研究动机与目标
- 为解决开放域问答系统高内存占用的问题,这些系统通常需要数十 GiB 的大规模文档索引。
- 探究在事实性问答任务中,索引中的大量段落是否具有冗余或无关性。
- 开发一种内存高效的问答流水线,在大幅减少索引大小的同时保持高性能。
- 构建一个结合检索器、重排序器、抽取式阅读器和生成式阅读器的基准系统,以支持未来研究。
- 探讨当前开放域问答数据集是否真正‘开放’,鉴于段落中存在强烈的先验相关性模式。
提出的方法
- 提出一种基于段落内容的二元先验相关性分类器(剪枝器),在无问题上下文的情况下,仅通过拼接标题和内容对段落进行打分,使用黄金段落与非黄金段落之间的二元交叉熵损失进行训练。
- 应用阈值 τ,仅保留相关性概率 P(r|pi) > τ 的段落,从而在保持检索质量的同时减少索引大小。
- 提出 R2-D2 流水线:检索器 → 段落重排序器 → 抽取式阅读器 → 生成式阅读器,采用两阶段聚合策略。
- 使用交叉编码器 Transformer 进行段落重排序,实现细粒度的问题-段落交互。
- 采用一种新型抽取式阅读器损失函数,对目标段落独立进行边缘化处理,提升跨度预测性能。
- 通过得分聚合结合抽取式与生成式阅读器的输出,提升系统鲁棒性与准确性。
实验结果
研究问题
- RQ1开放域问答索引中大量段落是否可以被剪枝而不造成显著性能下降?
- RQ2仅基于段落内容的先验相关性分类器是否能捕捉到对问答相关性有意义的信号?
- RQ3在保持开放域问答中具有竞争力的 EM 准确率的前提下,索引大小最多可减少多少?
- RQ4结合抽取式与生成式阅读器的多组件流水线相比单阅读器系统,在性能上有多大的提升?
- RQ5段落中强烈的先验相关性是否暗示当前开放域问答数据集实际上不如假设的那样‘开放’?
主要发现
- 所提出的剪枝方法将索引大小减少了 92%,仅保留原始段落的 8%,在 NaturalQuestions 上 EM 准确率仅下降 3%。
- 剪枝后的索引可容纳于 6GB 的 Docker 镜像中,包含操作系统、库和所有系统组件,支持在标准 GPU 上部署。
- R2-D2 流水线在 NaturalQuestions 基准测试中达到最先进性能,优于先前系统。
- 该系统在 EfficientQA 竞赛中位列顶尖表现者行列,验证了其鲁棒性与高效性。
- 发现 Karpukhin 等人(2020)的段落嵌入本身已内嵌与剪枝器相同的先验相关性信号,验证了方法的一致性。
- 先验相关性分类器在无问题上下文的情况下成功识别出相关段落,表明段落内容本身即携带强大的问答相关性预测信号。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。