[논문 리뷰] InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
InPars-v2는 오픈소스 LLM을 사용해 합성 질의-문서 쌍을 생성하고, monoT5 재랭커로 필터링하며, 18개의 데이터셋별 재랭커를 학습시키고, 코드, 데이터, 모델을 공개하면서 BEIR에서 새로운 최첨단 성능을 달성합니다.
Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu
연구 동기 및 목표
- 도메인 내 레이블링된 데이터가 부족할 때 IR에 대한 데이터 확장을 촉진한다.
- 합성 질의 생성을 위해 독점형 LLM을 오픈 소스 대안으로 대체한다.
- 높은 품질의 합성 질의-문서 쌍을 선택하기 위한 더 나은 필터링 단계를 도입한다.
- 최첨단 BEIR 결과를 시연하고 재현성을 위한 오픈 소스 아티팩트를 제공한다.
제안 방법
- 오픈 소스 GPT-J-6B를 사용하여 각 BEIR 데이터셋당 100k개의 합성 질의를 생성하고, 3-shot MS MARCO 프롬프트를 사용한다.
- MS MARCO에서 파인튜닝된 monoT5-3B로 점수 매겨 10k개의 고품질 쌍으로 필터링한다.
- 각 합성 질의에 대해 상위 BM25 결과에서 관련 없은 문서를 샘플링하여 음수를 생성한다.
- MS MARCO에서 재랭커로서 monoT5-3B를 파인튜닝하고, 그 후 합성 데이터(데이터셋별)로 추가 파인튜닝한다.
- BEIR 데이터셋당 하나씩의 개별 재랭커를 학습시키고 BM25 검색 + 재랭킹 파이프라인으로 평가한다.
실험 결과
연구 질문
- RQ1오픈 소스 LLM이 독점형 접근 방식에 맞서는 합성 IR 데이터를 생성할 수 있는가?
- RQ2학습된 재랭커 기반 필터링 단계가 IR 훈련용 합성 질의-문서 쌍의 품질을 향상시키는가?
- RQ3합성 데이터를 사용해 데이터셋별 재랭커를 학습시킬 때 BEIR 수준의 이득은 무엇인가?
주요 결과
| 데이터셋 | BM25 | monoT5-3B | +InPars-v1 | +InPars-v2 | 평균 | 평균 PrGator |
|---|---|---|---|---|---|---|
| MARCO | 0.594 | 0.801 | 0.846 | 0.846 | 0.762 | 0.823 |
| TREC-Covid | 0.594 | 0.801 | 0.846 | 0.846 | 0.762 | 0.823 |
| Robust | 0.407 | 0.615 | 0.610 | 0.632 | - | - |
| FiQA | 0.236 | 0.509 | 0.492 | 0.509 | 0.494 | 0.493 |
| DBPedia | 0.318 | 0.472 | 0.494 | 0.498 | 0.434 | 0.459 |
| SciDocs | 0.149 | 0.197 | 0.206 | 0.208 | 0.201 | 0.191 |
| SciFact | 0.678 | 0.774 | 0.774 | 0.774 | 0.731 | 0.760 |
| NFCorpus | 0.321 | 0.383 | 0.385 | 0.385 | 0.370 | 0.399 |
| BioASQ | 0.522 | 0.566 | 0.607 | 0.595 | - | 0.579 |
| Natural Questions | 0.305 | 0.625 | 0.625 | 0.638 | - | 0.647 |
| HotpotQA | 0.633 | 0.760 | 0.790 | 0.791 | 0.736 | 0.753 |
| TREC-News | 0.395 | 0.477 | 0.458 | 0.490 | - | - |
| Quora | 0.788 | 0.835 | 0.874 | 0.845 | - | 0.819 |
| FEVER | 0.651 | 0.848 | 0.852 | 0.872 | 0.866 | 0.848 |
| Climate-FEVER | 0.165 | 0.288 | 0.287 | 0.323 | 0.241 | 0.275 |
| Signal | 0.328 | 0.302 | 0.319 | 0.308 | - | 0.319 |
| ArguAna | 0.397 | 0.379 | 0.371 | 0.369 | 0.630 | 0.406 |
| Touche | 0.442 | 0.309 | 0.260 | 0.291 | 0.381 | 0.486 |
| CQADupstack | 0.302 | 0.449 | 0.449 | 0.448 | - | - |
- InPars-v2는 InPars-v1을 능가하고 평균적으로 BEIR 최첨단 성과를 달성한다.
- BEIR 벤치마크에서 본 접근법은 Promptagator와 RankT5에 비해 많은 데이터셋에서 경쟁력 있는 결과를 낸다.
- MARCO 기반 합성 데이터가 monoT5-3B 재랭커로 필터링될 때 BEIR 성능이 강하게 나타난다.
- 합성 데이터, 코드 및 파인튜닝된 모델의 오픈 소스화는 재현성과 추가 연구를 촉진한다.
- 평균 BEIR 성능(Avg)은 여러 데이터셋에서 Avg PrGator 기준보다 향상을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.