Skip to main content
QUICK REVIEW

[论文解读] Zero-shot Neural Retrieval via Domain-targeted Synthetic Query Generation.

Ji Ma, Ivan Korotkov|arXiv (Cornell University)|Apr 29, 2020
Topic Modeling被引用 20
一句话总结

本文提出了一种零样本神经检索框架,通过在通用领域数据上微调的预训练查询生成器,生成针对特定领域的合成查询-文档配对。通过利用这些合成的、但与领域相关的训练配对,该方法在无需特定领域标注数据的情况下实现了有效的神经即席检索,在零样本设置下于基准数据集上取得了具有竞争力的性能。

ABSTRACT

Deep neural scoring models have recently been shown to improve ranking quality on a number of benchmarks (Guo et al., 2016; Daiet al., 2018; MacAvaney et al., 2019; Yanget al., 2019a). However, these methods rely on underlying ad-hoc retrieval systems to generate candidates for scoring, which are rarely neural themselves (Zamani et al., 2018). Re-cent work has shown that the performance of ad-hoc neural retrieval systems can be competitive with a number of baselines (Zamani et al.,2018), potentially leading the way to full end-to-end neural retrieval. A major road-block to the adoption of ad-hoc retrieval models is that they require large supervised training sets to surpass classic term-based techniques, which can be developed from raw corpora. Previous work shows weakly supervised data can yield competitive results, e.g., click data (Dehghaniet al., 2017; Borisov et al., 2016). Unfortunately for many domains, even weakly supervised data can be scarce. In this paper, we pro-pose an approach to zero-shot learning (Xianet al., 2018) for ad-hoc retrieval models that relies on synthetic query generation. Crucially, the query generation system is trained on general domain data, but is applied to documents in the targeted domain. This allows us to create arbitrarily large, yet noisy, query-document relevance pairs that are domain targeted. On a number of benchmarks, we show that this is an effective strategy for building neural retrieval models for specialised domains.

研究动机与目标

  • 解决专业领域即席神经检索中有限标注训练数据的挑战。
  • 克服对监督或弱监督数据的依赖,这些数据在小众领域通常稀缺。
  • 通过生成针对目标领域的定制化合成相关性配对,实现神经检索模型的零样本学习。
  • 证明从通用领域模型生成的合成数据可有效训练高性能检索系统,适用于专业领域。

提出的方法

  • 在通用领域数据(如 MS MARCO)上训练查询生成模型,以生成多样化且合理的查询。
  • 将预训练的查询生成器应用于目标领域的文档,生成合成的查询-文档配对。
  • 将合成的查询-文档配对作为弱监督信号,在零样本设置下训练神经即席检索模型。
  • 使用合成的相关性配对微调检索模型,利用神经打分函数对文档进行排序。
  • 通过仅对领域特定文档应用查询生成器,确保领域相关性,保持上下文一致性。
  • 利用迁移学习原理,使通用领域查询生成器能够泛化至未见领域,生成合理的查询。

实验结果

研究问题

  • RQ1从通用领域查询生成器生成的合成查询-文档配对,是否足以在零样本设置下有效训练神经检索模型?
  • RQ2在专业领域中,基于合成数据训练的零样本神经检索模型性能与监督基线相比如何?
  • RQ3合成查询的质量在多大程度上影响最终检索模型的有效性?
  • RQ4单一通用领域查询生成器是否具备足够泛化能力,可为多种未见过的目标领域生成有用查询?

主要发现

  • 尽管在目标领域未使用任何标注数据,该方法在多个基准数据集上仍取得了具有竞争力的性能。
  • 从通用领域模型生成的合成查询-文档配对足以训练出在零样本设置下优于强基线的神经检索模型。
  • 该方法展现出强大的零样本泛化能力,表明合成数据可有效替代专业领域的真实标注数据。
  • 在低资源领域中,性能提升尤为显著,这些领域通常缺乏或完全无标注数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。