Skip to main content
QUICK REVIEW

[논문 리뷰] InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

Vitor Jeronymo, Luiz Bonifacio|arXiv (Cornell University)|2023. 01. 04.
Topic Modeling인용 수 26
한 줄 요약

InPars-v2는 오픈소스 LLM을 사용해 합성 질의-문서 쌍을 생성하고, monoT5 재랭커로 필터링하며, 18개의 데이터셋별 재랭커를 학습시키고, 코드, 데이터, 모델을 공개하면서 BEIR에서 새로운 최첨단 성능을 달성합니다.

ABSTRACT

Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu

연구 동기 및 목표

  • 도메인 내 레이블링된 데이터가 부족할 때 IR에 대한 데이터 확장을 촉진한다.
  • 합성 질의 생성을 위해 독점형 LLM을 오픈 소스 대안으로 대체한다.
  • 높은 품질의 합성 질의-문서 쌍을 선택하기 위한 더 나은 필터링 단계를 도입한다.
  • 최첨단 BEIR 결과를 시연하고 재현성을 위한 오픈 소스 아티팩트를 제공한다.

제안 방법

  • 오픈 소스 GPT-J-6B를 사용하여 각 BEIR 데이터셋당 100k개의 합성 질의를 생성하고, 3-shot MS MARCO 프롬프트를 사용한다.
  • MS MARCO에서 파인튜닝된 monoT5-3B로 점수 매겨 10k개의 고품질 쌍으로 필터링한다.
  • 각 합성 질의에 대해 상위 BM25 결과에서 관련 없은 문서를 샘플링하여 음수를 생성한다.
  • MS MARCO에서 재랭커로서 monoT5-3B를 파인튜닝하고, 그 후 합성 데이터(데이터셋별)로 추가 파인튜닝한다.
  • BEIR 데이터셋당 하나씩의 개별 재랭커를 학습시키고 BM25 검색 + 재랭킹 파이프라인으로 평가한다.

실험 결과

연구 질문

  • RQ1오픈 소스 LLM이 독점형 접근 방식에 맞서는 합성 IR 데이터를 생성할 수 있는가?
  • RQ2학습된 재랭커 기반 필터링 단계가 IR 훈련용 합성 질의-문서 쌍의 품질을 향상시키는가?
  • RQ3합성 데이터를 사용해 데이터셋별 재랭커를 학습시킬 때 BEIR 수준의 이득은 무엇인가?

주요 결과

데이터셋BM25monoT5-3B+InPars-v1+InPars-v2평균평균 PrGator
MARCO0.5940.8010.8460.8460.7620.823
TREC-Covid0.5940.8010.8460.8460.7620.823
Robust0.4070.6150.6100.632--
FiQA0.2360.5090.4920.5090.4940.493
DBPedia0.3180.4720.4940.4980.4340.459
SciDocs0.1490.1970.2060.2080.2010.191
SciFact0.6780.7740.7740.7740.7310.760
NFCorpus0.3210.3830.3850.3850.3700.399
BioASQ0.5220.5660.6070.595-0.579
Natural Questions0.3050.6250.6250.638-0.647
HotpotQA0.6330.7600.7900.7910.7360.753
TREC-News0.3950.4770.4580.490--
Quora0.7880.8350.8740.845-0.819
FEVER0.6510.8480.8520.8720.8660.848
Climate-FEVER0.1650.2880.2870.3230.2410.275
Signal0.3280.3020.3190.308-0.319
ArguAna0.3970.3790.3710.3690.6300.406
Touche0.4420.3090.2600.2910.3810.486
CQADupstack0.3020.4490.4490.448--
  • InPars-v2는 InPars-v1을 능가하고 평균적으로 BEIR 최첨단 성과를 달성한다.
  • BEIR 벤치마크에서 본 접근법은 Promptagator와 RankT5에 비해 많은 데이터셋에서 경쟁력 있는 결과를 낸다.
  • MARCO 기반 합성 데이터가 monoT5-3B 재랭커로 필터링될 때 BEIR 성능이 강하게 나타난다.
  • 합성 데이터, 코드 및 파인튜닝된 모델의 오픈 소스화는 재현성과 추가 연구를 촉진한다.
  • 평균 BEIR 성능(Avg)은 여러 데이터셋에서 Avg PrGator 기준보다 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.