Skip to main content
QUICK REVIEW

[论文解读] InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

Vitor Jeronymo, Luiz Bonifacio|arXiv (Cornell University)|Jan 4, 2023
Topic Modeling被引用 26
一句话总结

InPars-v2 使用开源 LLMs 生成合成查询-文档对,通过 monoT5 重排序器筛选,并针对 18 个数据集训练特定的重排序器,在 BEIR 上取得新状态-of-the-art,同时公开代码、数据和模型。

ABSTRACT

Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu

研究动机与目标

  • 在标注域内数据稀缺时,推动 IR 的数据增强。
  • 用开源替代 proprietary LLMs 进行合成查询生成。
  • 引入更好的筛选步骤以选择高质量的合成查询-文档对。
  • 展示最先进的 BEIR 结果并提供可复现实验的开源产物。

提出的方法

  • 使用开源 GPT-J-6B 结合 3-shot MS MARCO 提示,为每个 BEIR 数据集生成 10 万条合成查询。
  • 通过在 MS MARCO 上微调的 monoT5-3B 进行打分筛选,筛出 1 万条高质量对。
  • 通过从每个合成查询的前 BM25 结果中采样非相关文档来创建负样本。
  • 将 monoT5-3B 作为重排序器在 MS MARCO 上进行微调,然后在合成数据上进一步微调(按数据集)。
  • 训练独立的重排序器(每个 BEIR 数据集一个),并通过 BM25 检索 + 重排序流程进行评估。

实验结果

研究问题

  • RQ1开源 LLM 是否能够生成在 IR 训练中可与专有方法相竞争的合成数据?
  • RQ2通过学习型重排序器筛选步骤是否提升合成查询-文档对的质量从而提升 IR 训练效果?
  • RQ3在用合成数据训练数据集特定的重排序器时,BEIR 级别的增益有多大?

主要发现

数据集BM25monoT5-3B+InPars-v1+InPars-v2平均平均 PrGator
MARCO0.5940.8010.8460.8460.7620.823
TREC-Covid0.5940.8010.8460.8460.7620.823
Robust0.4070.6150.6100.632--
FiQA0.2360.5090.4920.5090.4940.493
DBPedia0.3180.4720.4940.4980.4340.459
SciDocs0.1490.1970.2060.2080.2010.191
SciFact0.6780.7740.7740.7740.7310.760
NFCorpus0.3210.3830.3850.3850.3700.399
BioASQ0.5220.5660.6070.595-0.579
Natural Questions0.3050.6250.6250.638-0.647
HotpotQA0.6330.7600.7900.7910.7360.753
TREC-News0.3950.4770.4580.490--
Quora0.7880.8350.8740.845-0.819
FEVER0.6510.8480.8520.8720.8660.848
Climate-FEVER0.1650.2880.2870.3230.2410.275
Signal0.3280.3020.3190.308-0.319
ArguAna0.3970.3790.3710.3690.6300.406
Touche0.4420.3090.2600.2910.3810.486
CQADupstack0.3020.4490.4490.448--
  • InPars-v2 超越 InPars-v1,并在 BEIR 的平均结果上达到最先进的水平。
  • 在 BEIR 基准测试中,该方法在多数数据集上与 Promptagator 和 RankT5 相比具有竞争力的结果。
  • 在基于 MARCO 的合成数据经过 monoT5-3B 重排序器筛选后,获得强劲的 BEIR 表现。
  • 开源合成数据、代码和微调模型有助于可复现性和后续研究。
  • 平均 BEIR 性能(Avg)比 Avg PrGator 基线在多个数据集上显示出提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。