[논문 리뷰] Query Expansion by Prompting Large Language Models
이 논문은 오픈소스 LLM의 프롬프트를 활용하여 IR를 위한 질의 확장을 생성하고, 특히 PRF 맥락이 있는 Chain-of-Thought 프롬프트가 전통적인 PRF 방법에 비해 MS-MARCO와 BEIR 데이터셋에서 높은 재현율 이득을 가져다줌을 발견한다.
Query expansion is a widely used technique to improve the recall of search systems. In this paper, we propose an approach to query expansion that leverages the generative abilities of Large Language Models (LLMs). Unlike traditional query expansion approaches such as Pseudo-Relevance Feedback (PRF) that relies on retrieving a good set of pseudo-relevant documents to expand queries, we rely on the generative and creative abilities of an LLM and leverage the knowledge inherent in the model. We study a variety of different prompts, including zero-shot, few-shot and Chain-of-Thought (CoT). We find that CoT prompts are especially useful for query expansion as these prompts instruct the model to break queries down step-by-step and can provide a large number of terms related to the original query. Experimental results on MS-MARCO and BEIR demonstrate that query expansions generated by LLMs can be more powerful than traditional query expansion methods.
연구 동기 및 목표
- LLM 프롬프트를 통해 재학습 없이도 효과적인 질의 확장을 생성할 수 있는지 조사한다.
- 제로샷, 소수 샷, Chain-of-Thought 프롬프트의 질의 확장(QE) 차이를 비교한다.
- PRF 컨텍스트와 모델 규모가 QE의 효과에 미치는 역할을 평가한다.
- MS-MARCO와 BEIR에서 도메인 강건성을 이해한다.
제안 방법
- 원래 질의와 LLM이 생성한 확장들을 이어 붙여 질의 확장을 구성하는 방식으로 제안한다.
- PRF 컨텍스트의 유무를 포함해 여덟 가지 프롬프트(Q2D, Q2D/ZS, Q2D/PRF, Q2E, Q2E/ZS, Q2E/PRF, CoT, CoT/PRF)를 연구한다.
- 확장 항을 생성하기 위해 Q2D/Q2E 프롬프트를 사용하고, 질의의 용어를 강조하기 위해 원래 질의를 다섯 번 반복한다.
- 60M에서 20B 매개변수 규모의 다양한 오픈소스 모델(Flan-T5 변형 및 Flan-UL2)으로 평가한다.
- 검색 기반의 baselines로 BM25를 사용하고 QE baselines로 Terrier 구현체를 Bo1, Bo2, KL로 사용한다.
- 주요 지표로 Recall@1K를 측정하고, 상위-집약적 성능을 위해 MR R@10과 NDCG@10을 함께 보고하며, 차이의 유의성은 대응표본 t-검정(p<0.01)으로 평가한다.
실험 결과
연구 질문
- RQ1LLM이 생성한 확장을 프롬프팅을 통해 활용하는 것이 표준 PRF 기반 QE 대비 재현율을 향상시킬 수 있는가?
- RQ2어떤 프롬프팅 스타일(제로샷, 소수 샷, Chain-of-Thought)이 검색에 가장 우수한 확장 용어를 제공하는가?
- RQ3프롬프트에 PRF 문서를 포함시키는 것이 도움이 되며, 모델 크기는 결과에 어떤 영향을 미치는가?
- RQ4LLM 기반 QE 방법은 MS-MARCO와 BEIR 도메인에서 어떻게 다르게 작동하는가?
- RQ5실무적 고려사항(모델 크기, 비용)은 LLM 기반 QE 배치에 어떤 영향을 미치는가?
주요 결과
- Chain-of-Thought 프롬프트가 질의 확장을 사용할 때 MS-MARCO에서 가장 강한 재현율 이득을 제공합니다.
- CoT/PRF 프롬프트는 PRF 맥락을 활용하여 상위-집약 지표(MRR@10, NDCG@10)를 개선합니다.
- Q2D/PRF 및 CoT 변형은 Recall@1K에서 고전적 PRF 기준선(Bo1, Bo2, KL)보다 우수합니다.
- MS-MARCO에서 더 큰 모델이 일반적으로 더 잘 작동하며, CoT는 약 3B 매개변수에서 BM25+Bo1과 동등한 수준에 도달하고 11B+ 모델에서 최상의 성능을 보입니다.
- BEIR에서 PRF 기반의 고전 QE가 도메인 특성 데이터셋에서 여전히 강세인 반면, LLM 기반 QE는 QA 지향 데이터셋(fiqa, nq, msmarco, hotpotqa)에서 돋보입니다.
- PRF 컨텍스트를 사용하는 것은 작은 모델의 성능을 안정시키는 데 도움이 되지만, 매우 큰 규모에서는 이득이 줄어들 수 있으며, 실용적 배치를 위한 대형 모델의 축소(distillation)가 제안됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.