QUICK REVIEW

[논문 리뷰] InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval

Vitor Jeronymo, Luiz Bonifacio|arXiv (Cornell University)|2023. 01. 04.

Topic Modeling인용 수 26

한 줄 요약

InPars-v2는 오픈소스 LLM을 사용해 합성 질의-문서 쌍을 생성하고, monoT5 재랭커로 필터링하며, 18개의 데이터셋별 재랭커를 학습시키고, 코드, 데이터, 모델을 공개하면서 BEIR에서 새로운 최첨단 성능을 달성합니다.

ABSTRACT

Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu

연구 동기 및 목표

도메인 내 레이블링된 데이터가 부족할 때 IR에 대한 데이터 확장을 촉진한다.
합성 질의 생성을 위해 독점형 LLM을 오픈 소스 대안으로 대체한다.
높은 품질의 합성 질의-문서 쌍을 선택하기 위한 더 나은 필터링 단계를 도입한다.
최첨단 BEIR 결과를 시연하고 재현성을 위한 오픈 소스 아티팩트를 제공한다.

제안 방법

오픈 소스 GPT-J-6B를 사용하여 각 BEIR 데이터셋당 100k개의 합성 질의를 생성하고, 3-shot MS MARCO 프롬프트를 사용한다.
MS MARCO에서 파인튜닝된 monoT5-3B로 점수 매겨 10k개의 고품질 쌍으로 필터링한다.
각 합성 질의에 대해 상위 BM25 결과에서 관련 없은 문서를 샘플링하여 음수를 생성한다.
MS MARCO에서 재랭커로서 monoT5-3B를 파인튜닝하고, 그 후 합성 데이터(데이터셋별)로 추가 파인튜닝한다.
BEIR 데이터셋당 하나씩의 개별 재랭커를 학습시키고 BM25 검색 + 재랭킹 파이프라인으로 평가한다.

실험 결과

연구 질문

RQ1오픈 소스 LLM이 독점형 접근 방식에 맞서는 합성 IR 데이터를 생성할 수 있는가?
RQ2학습된 재랭커 기반 필터링 단계가 IR 훈련용 합성 질의-문서 쌍의 품질을 향상시키는가?
RQ3합성 데이터를 사용해 데이터셋별 재랭커를 학습시킬 때 BEIR 수준의 이득은 무엇인가?

주요 결과

데이터셋	BM25	monoT5-3B	+InPars-v1	+InPars-v2	평균	평균 PrGator
MARCO	0.594	0.801	0.846	0.846	0.762	0.823
TREC-Covid	0.594	0.801	0.846	0.846	0.762	0.823
Robust	0.407	0.615	0.610	0.632	-	-
FiQA	0.236	0.509	0.492	0.509	0.494	0.493
DBPedia	0.318	0.472	0.494	0.498	0.434	0.459
SciDocs	0.149	0.197	0.206	0.208	0.201	0.191
SciFact	0.678	0.774	0.774	0.774	0.731	0.760
NFCorpus	0.321	0.383	0.385	0.385	0.370	0.399
BioASQ	0.522	0.566	0.607	0.595	-	0.579
Natural Questions	0.305	0.625	0.625	0.638	-	0.647
HotpotQA	0.633	0.760	0.790	0.791	0.736	0.753
TREC-News	0.395	0.477	0.458	0.490	-	-
Quora	0.788	0.835	0.874	0.845	-	0.819
FEVER	0.651	0.848	0.852	0.872	0.866	0.848
Climate-FEVER	0.165	0.288	0.287	0.323	0.241	0.275
Signal	0.328	0.302	0.319	0.308	-	0.319
ArguAna	0.397	0.379	0.371	0.369	0.630	0.406
Touche	0.442	0.309	0.260	0.291	0.381	0.486
CQADupstack	0.302	0.449	0.449	0.448	-	-

InPars-v2는 InPars-v1을 능가하고 평균적으로 BEIR 최첨단 성과를 달성한다.
BEIR 벤치마크에서 본 접근법은 Promptagator와 RankT5에 비해 많은 데이터셋에서 경쟁력 있는 결과를 낸다.
MARCO 기반 합성 데이터가 monoT5-3B 재랭커로 필터링될 때 BEIR 성능이 강하게 나타난다.
합성 데이터, 코드 및 파인튜닝된 모델의 오픈 소스화는 재현성과 추가 연구를 촉진한다.
평균 BEIR 성능(Avg)은 여러 데이터셋에서 Avg PrGator 기준보다 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.