[논문 리뷰] Promptagator: Few-shot Dense Retrieval From 8 Examples
Promptagator는 few-shot 프롬프트 기반 LLM 쿼리 생성기를 사용하여 합성 태스크-특정 데이터를 생성하고, MS MARCO-trained 모델보다 BEIR 태스크에서 성능이 더 우수한 소형 엔드-투-엔드 듀얼-인코더 검색기를 학습하며, 추가 재랭킹 향상도 제공합니다.
Much recent research on information retrieval has focused on how to transfer from one task (typically with abundant supervised data) to various other tasks where supervision is limited, with the implicit assumption that it is possible to generalize from one task to all the rest. However, this overlooks the fact that there are many diverse and unique retrieval tasks, each targeting different search intents, queries, and search domains. In this paper, we suggest to work on Few-shot Dense Retrieval, a setting where each task comes with a short description and a few examples. To amplify the power of a few examples, we propose Prompt-base Query Generation for Retriever (Promptagator), which leverages large language models (LLM) as a few-shot query generator, and creates task-specific retrievers based on the generated data. Powered by LLM's generalization ability, Promptagator makes it possible to create task-specific end-to-end retrievers solely based on a few examples {without} using Natural Questions or MS MARCO to train %question generators or dual encoders. Surprisingly, LLM prompting with no more than 8 examples allows dual encoders to outperform heavily engineered models trained on MS MARCO like ColBERT v2 by more than 1.2 nDCG on average on 11 retrieval sets. Further training standard-size re-rankers using the same generated data yields another 5.0 point nDCG improvement. Our studies determine that query generation can be far more effective than previously observed, especially when a small amount of task-specific knowledge is given.
연구 동기 및 목표
- retrieval 작업의 다양성과 태스크-특정 few-shot 검색 설정의 필요성을 강조한다.
- fine-tuning 없이 LLM 프롬프팅을 통해 합성 태스크-특정 학습 데이터를 생성하는 Promptagator를 제안한다.
- 생성된 데이터로 학습된 소형 듀얼 인코더가 BEIR 태스크에서 MS MARCO 학습 모델을 능가할 수 있음을 보여준다.
- 동일한 데이터로 학습된 후속 재랭커가 추가 성능 향상을 가져오는 것을 보여준다.
제안 방법
- BEIR에서 태스크당 도메인 내 예시 2–8개로 Few-shot Retrieval 설정을 정의한다.
- 대형 언어 모델(FLAN 137B)을 사용해 태스크 설명과 몇 가지 예시에 조건화된 합성 쿼리를 생성한다.
- 합성 데이터로 예비 검색기를 학습하고 소스 문서가 높은 순위에 오르는 쌍을 유지하는 순회 일관성 필터를 적용한다.
- 합성 데이터에서 초기화된 T5 기반 인코더에서 듀얼-인코더 검색기를 학습하고 필터링된 데이터로 미세 튜닝한다.
- 동일한 합성 데이터에서 교차 주의력 재랭커(Promptagator++)를 학습시켜 상위 후보를 다듬는다.
- Promptagator의 zero-shot 및 few-shot 변형을 제공하고 MS MARCO 학습 기준과 비교한다.
실험 결과
연구 질문
- RQ1Few-shot 프롬프트 기반 데이터 생성 패러다임이 도메인 내 주석 쿼리-문서 쌍 없이도 효과적인 엔드-투-엔드 밀집 검색기를 가능하게 하는가?
- RQ2일관성 필터링으로 보강된 프롬프트 기반 합성 데이터의 품질이 다양한 BEIR 태스크에서 검색 성능에 어떻게 영향을 미치는가?
- RQ3few-shot 대 zero-shot 프롬프트 생성 데이터의 비교적 영향이 검색 및 재랭킹 성능에 어떤 차이를 만드는가?
- RQ4Promptagator가 BEIR에서 MS MARCO 학습 기준 및 특화 재랭커와 비교해 어떤 성능 차이를 보이는가?
주요 결과
- 제로샷 Promptagator는 MS MARCO 데이터를 학습한 베이스라인에 맞먹는 강력한 베이스라인을 설정한다.
- Few-shot Promptagator는 제로샷 대비 큰 향상을 보이며 BEIR 데이터셋에서 평균 nDCG@10를 2포인트 이상 증가시킨다.
- Promptagator는 ColBERT v2 및 SPLADE v2와 같은 강력한 MS MARCO 학습 모델보다 11개의 BEIR 태스크에서 더 나은 성능을 보인다.
- Promptagator++(교차 주의력 재랭커)는 Promptagator 대비 nDCG@10에 약 5포인트를 더해 여러 재랭킹 접근법을 능가한다.
- 일관성 필터링은 데이터 품질 관리의 가치를 보여주며 대부분의 데이터셋에서 성능을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.