QUICK REVIEW

[논문 리뷰] InPars: Data Augmentation for Information Retrieval using Large Language Models

Luiz Bonifacio, Hugo Abonizio|arXiv (Cornell University)|2022. 02. 10.

Topic Modeling인용 수 20

한 줄 요약

InPars는 대형 언어 모델을 사용한 소수-shot 프롬프트로 합성 질의-문서 쌍을 생성하고, 이 데이터로 reranker를 미세조정하며, 여러 IR 데이터셋에서 강력한 제로샷 및 도메인 내 검색 성능을 달성한다.

ABSTRACT

The information retrieval community has recently witnessed a revolution due to large pretrained transformer models. Another key ingredient for this revolution was the MS MARCO dataset, whose scale and diversity has enabled zero-shot transfer learning to various tasks. However, not all IR tasks and domains can benefit from one single dataset equally. Extensive research in various NLP tasks has shown that using domain-specific training data, as opposed to a general-purpose one, improves the performance of neural models. In this work, we harness the few-shot capabilities of large pretrained language models as synthetic data generators for IR tasks. We show that models finetuned solely on our unsupervised dataset outperform strong baselines such as BM25 as well as recently proposed self-supervised dense retrieval methods. Furthermore, retrievers finetuned on both supervised and our synthetic data achieve better zero-shot transfer than models finetuned only on supervised data. Code, models, and data are available at https://github.com/zetaalphavector/inpars .

연구 동기 및 목표

대형 LLM이 계산적으로 비효율적일 때 IR에서 도메인 특화 데이터 증가의 필요성을 동기 부여한다.
대형 LMs로부터 라벨링된 IR 데이터를 생성하기 위한 실용적인 소수-shot 프롬프트 접근법을 제안한다.
InPars가 생성한 데이터로 미세조정된 검색기가 기준선보다 우수하며 강력한 제로샷 전이를 가능하게 함을 보여준다.
도메인 내 합성 데이터가 일반 도메인 데이터보다 추가 이점을 제공함을 보여준다.

제안 방법

언어 모델 G를 사용해 문서 d로부터 질의 q를 생성하고, (q,d) 양의 쌍을 형성한다.
생성 가이드를 주기 위해 N개의 예시 (q*,d*) 쌍으로 고정된 소수-shot 접두사 t를 구성한다.
컬렉션에서 문서를 샘플링하고 LM의 자기회귀 확률 p_q로 순위를 매겨 수천 개의 (q,d) 양수를 생성한다.
생성된 질의의 평균 로그 확률로 상위 K=10,000 쌍으로 필터링한다.
질의 q에 대해 BM25로 1000개의 문서를 검색하고 관련성 없는 d^-를 샘플링하여 음성 예시를 생성한다.
합성 데이터로 monoT5 기반 재랭커를 (220M과 3B)로 미세조정하고, 표준 MS MARCO/BM25 1단계 + 신경 재랭킹 파이프라인으로 평가한다.
IR 지표에 미치는 영향을 연구하기 위해 프롬프트 스타일(Vanilla vs GBQ)과 도메인 내 소스 대 Marco 생성 소스의 차이를 실험한다.
LM 크기가 질의 품질과 다운스트림 IR 성능에 대한 영향을 조사하고, 데이터 필터링 및 학습 설정에 대한 제거 실험(ablations)을 수행한다.

실험 결과

연구 질문

RQ1대형 LMs를 이용한 소수-shot 프롬프트가 재랭킹 정확도를 향상시키는 고품질 IR 학습 데이터를 생성할 수 있는가?
RQ2IR 작업에서 도메인 내 합성 데이터가 일반 도메인 합성 데이터보다 우수한가?
RQ3생성된 질의의 품질과 다운스트림 IR 성능에 대한 LM 크기와 프롬프트 스타일의 영향은 무엇인가?
RQ4다양한 데이터셋에서 합성 데이터가 기존의 비지도 학습 또는 제로샷 검색 기준선과 어떻게 비교되는가?
RQ5학습 세트를 구성할 때 생성된 질의를 가능도(likelihood)로 필터링하는 것이 이로운가?

주요 결과

InPars 합성 데이터로 미세조정된 비지도 검색기가 BM25 및 여러 자기지도(Dense) 방법보다 우수하다.
감독 데이터와 InPars 합성 데이터 모두로 미세조정된 검색기가 감독 데이터로만 미세조정된 모델보다 더 나은 제로샷 전이를 달성한다.
이 설정에서 크로스 인코더(monoT5 등)가 바이 인코더보다 우수하고, InPars가 이전 방법들보다 더 다양한 질의에 가까운 학습 데이터를 생성한다.
GBQ 프롬프트와 도메인 내 소스 문서가 여러 데이터셋에서 가장 강력한 결과를 낳고, Marco 소스를 이용한 Vanilla 프롬프트가 MS MARCO와 TREC-DL2020에서 가장 우수하다.
더 큰 LM 크기를 사용하면 일반적으로 IR 성능이 향상되지만 이득은 정체될 수 있으며, 생성된 질의의 상위-K 필터링은 이득을 유지하는 데 결정적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.