QUICK REVIEW

[论文解读] A Memory Efficient Baseline for Open Domain Question Answering

Gautier Izacard, Fabio Petroni|arXiv (Cornell University)|Dec 30, 2020

Topic Modeling参考文献 22被引用 29

一句话总结

本文通过结合降维、向量量化和段落过滤，提出了一种内存高效的开放域问答基线方法，以压缩密集检索-阅读器系统。该方法在内存使用量小于6GB的情况下，实现了具有竞争力的性能——在NaturalQuestions上达到53.6%的EM，在TriviaQA上达到71.3%，证明了在显著减小索引规模的前提下仍可实现高准确率。

ABSTRACT

Recently, retrieval systems based on dense representations have led to important improvements in open-domain question answering, and related tasks. While very effective, this approach is also memory intensive, as the dense vectors for the whole knowledge source need to be kept in memory. In this paper, we study how the memory footprint of dense retriever-reader systems can be reduced. We consider three strategies to reduce the index size: dimension reduction, vector quantization and passage filtering. We evaluate our approach on two question answering benchmarks: TriviaQA and NaturalQuestions, showing that it is possible to get competitive systems using less than 6Gb of memory.

研究动机与目标

在不造成显著性能损失的前提下，减少开放域问答任务中密集检索-阅读器系统的内存占用。
探究降维、向量量化和段落过滤作为密集检索索引压缩策略的有效性。
证明在内存使用量少于6GB的情况下，仍可实现具有竞争力的性能，从而实现在资源受限硬件上的部署。
在标准基准数据集TriviaQA和NaturalQuestions上评估多种压缩技术的互补性。

提出的方法

使用基于BERT-base的密集检索器，将问题和维基百科段落嵌入为d维向量。
采用8位子向量的乘积量化方法压缩密集向量索引，通过向量离散化减少内存使用。
通过将嵌入维度从256降低到128实现降维，减少索引大小和计算成本。
利用自训练的线性分类器实现段落过滤，基于标题和类别特征移除低效用的维基百科文章。
在推理过程中使用Faiss进行高效的内积最大值搜索，从而实现从压缩索引中快速检索。
使用Fusion-in-Decoder架构训练阅读器模型，初始化自T5-base，每个问题最多利用100个检索到的段落。

实验结果

研究问题

RQ1在性能损失最小的前提下，降维与向量量化相结合能在多大程度上减小索引大小？
RQ2段落过滤在移除低效用维基百科文章的同时，对保持检索质量的有效性如何？
RQ3压缩系统是否能在TriviaQA和NaturalQuestions等标准基准上实现具有竞争力的性能？
RQ4在应用多种压缩技术时，索引大小与端到端问答性能之间的权衡关系如何？

主要发现

将降维（降至128D）与乘积量化（64个子向量，每个子向量8位）结合，使索引大小减少至1.67GB，NaturalQuestions上的EM仅下降0.2%，TriviaQA上仅下降1.1%。
段落过滤成功去除了大量维基百科文章，使索引中的段落数量从2600万减少至1000万，同时保持了强劲的性能表现。
一个索引大小为2.1GB的压缩系统在NaturalQuestions上实现了44.0%的EM，在TriviaQA上实现了56.8%的EM，尽管远小于顶尖基线模型，但仍表现出具有竞争力的性能。
一个5.1GB的压缩系统在NaturalQuestions上实现了53.6%的EM，在TriviaQA上实现了71.3%的EM，分别接近顶尖模型的54.7%和73.3%。
三种技术——降维、量化和过滤——的组合被证明具有互补性，能够在几乎不损失准确率的前提下实现显著的内存节省。
最终的压缩模型内存使用量低于6GB，证明了高性能的开放域问答系统可在标准硬件上部署，而无需依赖大规模GPU显存。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。