Skip to main content
QUICK REVIEW

[论文解读] Embedding-based Zero-shot Retrieval through Query Generation

Davis Liang, Peng Xu|arXiv (Cornell University)|Sep 22, 2020
Topic Modeling参考文献 41被引用 24
一句话总结

本文提出一种零样本检索方法,通过合成查询生成来训练基于嵌入的双塔神经网络模型,且无需依赖标注数据。通过在MSMARCO上微调BART模型,从Wikipedia段落生成高质量的合成查询,该模型在零样本设置下达到最先进性能,平均Recall@1比BM25高出2.45个百分点,且在某些情况下甚至超越了在真实数据上微调的模型。

ABSTRACT

Passage retrieval addresses the problem of locating relevant passages, usually from a large corpus, given a query. In practice, lexical term-matching algorithms like BM25 are popular choices for retrieval owing to their efficiency. However, term-based matching algorithms often miss relevant passages that have no lexical overlap with the query and cannot be finetuned to downstream datasets. In this work, we consider the embedding-based two-tower architecture as our neural retrieval model. Since labeled data can be scarce and because neural retrieval models require vast amounts of data to train, we propose a novel method for generating synthetic training data for retrieval. Our system produces remarkable results, significantly outperforming BM25 on 5 out of 6 datasets tested, by an average of 2.45 points for Recall@1. In some cases, our model trained on synthetic data can even outperform the same model trained on real data

研究动机与目标

  • 为解决神经段落检索中,特别是在零样本设置下标注训练数据稀缺的问题。
  • 在非词汇匹配方法(如BM25)失效的非重叠查询场景下,提升零样本检索性能。
  • 通过为目标数据集生成领域特定的合成查询,实现有效的无监督领域自适应。
  • 证明大规模预训练生成的合成数据在某些情况下可优于真实数据。
  • 建立一种可扩展、数据高效的方法,仅使用未标注语料库即可训练神经检索模型。

提出的方法

  • 在MSMARCO的正样本查询-段落对上微调预训练的BART模型,以执行查询生成(QG)。
  • 将微调后的QG模型应用于所有英文Wikipedia段落,生成大规模合成检索数据集WikiGQ。
  • 使用合成的WikiGQ数据预训练双塔Siamese神经网络,为查询和段落分别使用独立编码器。
  • 将预训练模型作为基础模型,并仅使用其官方训练集在下游数据集上进行微调。
  • 将相同的QG模型应用于目标领域数据集(如InsuranceQA、BioASQ),生成领域特定的合成数据以进一步微调。
  • 在多个零样本和领域内检索基准上,使用标准信息检索指标(如Recall@1、Recall@10、Recall@100)评估性能。

实验结果

研究问题

  • RQ1能否从大规模未标注语料(如Wikipedia)中生成高质量的训练数据,以实现强大的零样本检索性能?
  • RQ2在Wikipedia生成的合成数据上进行预训练,是否能提升在多样化下游数据集(包括非Wikipedia领域)上的零样本性能?
  • RQ3通过目标领域文本生成的领域特定合成查询,能否通过无监督领域自适应进一步提升检索性能?
  • RQ4与真实数据训练相比,合成数据训练是否更具样本效率,且是否能减少对标注数据的需求?
  • RQ5在某些场景下,仅使用合成数据训练的模型是否能超越在真实人工标注数据上微调的模型?

主要发现

  • 在六个数据集上,微调合成WikiGQ数据的模型在Recall@1上平均比BM25高出2.45个百分点。
  • 在Natural Questions数据集上,仅使用合成数据训练的模型达到48.57%的Recall@1,超过未进行预训练而微调的模型的40.78% Recall@1。
  • 在InsuranceQA(非Wikipedia领域)上,经过WikiGQ预训练的模型达到34.33%的Recall@1,而未预训练的模型仅为30.82%。
  • 随着合成数据集规模增大,性能持续提升,但在超过400万段落之后收益递减。
  • 在目标数据集(如BioASQ或InsuranceQA)上使用领域特定的合成查询进行微调,进一步提升了对应数据集的性能。
  • 在某些情况下,仅使用合成数据训练的模型表现优于在真实人工标注数据上微调的同一模型,证明了合成监督的质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。