Skip to main content
QUICK REVIEW

[论文解读] InPars: Data Augmentation for Information Retrieval using Large Language Models

Luiz Bonifacio, Hugo Abonizio|arXiv (Cornell University)|Feb 10, 2022
Topic Modeling被引用 20
一句话总结

InPars 使用少量样本提示与大语言模型来生成合成的查询-文档对,对该数据进行再排序模型的微调,并在多个信息检索数据集上实现强零-shot和领域内检索性能。

ABSTRACT

The information retrieval community has recently witnessed a revolution due to large pretrained transformer models. Another key ingredient for this revolution was the MS MARCO dataset, whose scale and diversity has enabled zero-shot transfer learning to various tasks. However, not all IR tasks and domains can benefit from one single dataset equally. Extensive research in various NLP tasks has shown that using domain-specific training data, as opposed to a general-purpose one, improves the performance of neural models. In this work, we harness the few-shot capabilities of large pretrained language models as synthetic data generators for IR tasks. We show that models finetuned solely on our unsupervised dataset outperform strong baselines such as BM25 as well as recently proposed self-supervised dense retrieval methods. Furthermore, retrievers finetuned on both supervised and our synthetic data achieve better zero-shot transfer than models finetuned only on supervised data. Code, models, and data are available at https://github.com/zetaalphavector/inpars .

研究动机与目标

  • 在大语言模型计算成本高昂时,说明在信息检索中需要领域特定的数据增强的必要性。
  • 提出一种实用的少量样本提示方法,以从大语言模型生成带标签的 IR 数据。
  • 证明在 InPars 生成的数据上微调的检索器在基线方法之上并实现强鲁棒的零-shot 传递。
  • 显示领域内的合成数据比通用领域数据能带来额外的收益。

提出的方法

  • 使用一个语言模型 G 从文档 d 生成一个问题 q,形成一个 (q,d) 的正样本对。
  • 从 N 个示例 (q*,d*) 对中构造一个固定的少量样本前缀 t 以引导生成。
  • 通过从集合中抽取文档并按 p_q(LM 的自回归概率)对它们进行排序,生成数千个 (q,d) 正样本。
  • 通过生成问题的平均对数概率筛选出前 K=10,000 对。
  • 通过为 q 检索 1000 个 BM25 文档并抽取一个相关性不高的 d^- 来创建负样本。
  • 在合成数据上微调基于 monoT5 的重分排序器(220M 和 3B),并用标准的 MS MARCO/BM25 第一阶段 + 神经重排序管线进行评估。
  • 尝试提示风格(Vanilla 与 GBQ)以及领域内源与 Marco 生成源的组合,以研究对 IR 指标的影响。
  • 研究 LM 大小对问题质量和下游 IR 性能的影响,并对数据筛选与训练设置进行消融。

实验结果

研究问题

  • RQ1少量样本提示结合大语言模型是否能生成高质量的 IR 训练数据,从而提升重排序的准确性?
  • RQ2领域内的合成数据是否优于通用领域的合成数据用于 IR 任务?
  • RQ3LM 的大小与提示风格对生成的问题质量及下游 IR 性能有何影响?
  • RQ4与现有的无监督或零-shot 检索基线相比,合成数据在多样数据集上的表现如何?
  • RQ5在构建训练集时按似然性筛选生成的问题是否有益?

主要发现

  • 在 InPars 合成数据上微调的无监督检索器优于 BM25 及若干自监督的密集方法。
  • 在监督数据和 InPars 合成数据上微调的检索器具有比仅在监督数据上微调的模型更好的零-shot 传递。
  • 在这种设置中,跨编码器(如 monoT5)优于双编码器,且 InPars 产生的训练数据比先前方法更加多样、更加类似查询。
  • GBQ 提示加上领域内源文档在若干数据集上取得最强结果;Vanilla 提示配合 Marco 源在 MS MARCO 与 TREC-DL2020 上表现最佳。
  • 使用更大的语言模型通常能提升 IR 性能,尽管增益会趋于稳定;对生成的问题进行前 K 筛选对于维持增益至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。