Skip to main content
QUICK REVIEW

[论文解读] Query Expansion by Prompting Large Language Models

Rolf Jagerman, Honglei Zhuang|arXiv (Cornell University)|May 5, 2023
Topic Modeling被引用 15
一句话总结

本文通过对开源大型语言模型进行提示来生成信息检索的查询扩展,发现 Chain-of-Thought 提示,尤其是在 PRF 情境下,相较于传统 PRF 方法,在 MS-MARCO 和 BEIR 数据集上获得了显著的召回提升。更大模型有帮助,CoT 提示表现最佳,PRF 情境提升了面向顶部的指标。

ABSTRACT

Query expansion is a widely used technique to improve the recall of search systems. In this paper, we propose an approach to query expansion that leverages the generative abilities of Large Language Models (LLMs). Unlike traditional query expansion approaches such as Pseudo-Relevance Feedback (PRF) that relies on retrieving a good set of pseudo-relevant documents to expand queries, we rely on the generative and creative abilities of an LLM and leverage the knowledge inherent in the model. We study a variety of different prompts, including zero-shot, few-shot and Chain-of-Thought (CoT). We find that CoT prompts are especially useful for query expansion as these prompts instruct the model to break queries down step-by-step and can provide a large number of terms related to the original query. Experimental results on MS-MARCO and BEIR demonstrate that query expansions generated by LLMs can be more powerful than traditional query expansion methods.

研究动机与目标

  • 研究在不进行再训练的前提下,通过对LLM进行提示,是否能够生成有效的查询扩展。
  • 比较零-shot、少-shot 和 Chain-of-Thought 提示在查询扩展中的效果。
  • 评估 PRF 上下文和模型规模在查询扩展有效性中的作用。
  • 在 MS-MARCO 和 BEIR 上进行评估,以理解领域鲁棒性。

提出的方法

  • 将查询扩展表述为将原始查询与 LLM 生成的扩展项连接在一起。
  • 研究八种提示(Q2D、Q2D/ZS、Q2D/PRF、Q2E、Q2E/ZS、Q2E/PRF、CoT、CoT/PRF),有无 PRF 上下文。
  • 使用 Q2D/Q2E 提示生成扩展项;将原始查询重复五次以强调其术语。
  • 在多种开源模型(Flan-T5 变体和 Flan-UL2),规模从 6000 万到 200 亿参数进行评估。
  • 以 BM25 作为检索基线,并使用 Terrier 实现的 QE 基线(Bo1、Bo2、KL)。
  • 以 Recall@1K 作为主要指标,MRR@10 与 NDCG@10 用于评估顶部指标;通过配对 t 检验(p<0.01)确定显著性。

实验结果

研究问题

  • RQ1通过提示生成的 LLM 扩展是否能在标准信息检索基准上提升召回,相比传统基于 PRF 的 QE?
  • RQ2哪种提示风格(零-shot、少-shot、Chain-of-Thought)能为检索产生最佳扩展项?
  • RQ3将 PRF 文档纳入提示是否有帮助,模型规模如何影响结果?
  • RQ4基于 LLM 的 QE 方法在 MS-MARCO 与 BEIR 域中的表现如何?
  • RQ5在部署基于 LLM 的 QE 时有哪些实际考虑因素(模型规模、成本)?

主要发现

  • 在用于查询扩展时,Chain-of-Thought 提示在 MS-MARCO 上产生最强的召回提升。
  • CoT/PRF 提示通过利用 PRF 上下文提升了顶部导向指标(MRR@10、NDCG@10)。
  • Q2D/PRF 与 CoT 变体在 Recall@1K 上超过经典 PRF 基线(Bo1、Bo2、KL)。
  • 在 MS-MARCO 上,较大模型通常表现更好,CoT 在约 3B 参数时达到与 BM25+Bo1 的同等水平,最佳结果出现在 11B+ 参数模型。
  • 在 BEIR 上,基于 PRF 的经典 QE 在领域特定数据集上仍然强势,而基于 LLM 的 QE 在面向问答的数据集(fiqa、nq、msmarco、hotpotqa)表现突出。
  • 使用 PRF 上下文有助于稳定较小模型的性能,但在非常大规模时可能降低增益;建议将大型模型蒸馏到更小的模型以用于实际部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。