QUICK REVIEW

[論文レビュー] Query Expansion by Prompting Large Language Models

Rolf Jagerman, Honglei Zhuang|arXiv (Cornell University)|May 5, 2023

Topic Modeling被引用数 15

ひとこと要約

この論文はオープンソースの LLM を用いたクエリ拡張をIRに対して prompting する。Chain-of-Thought prompt、特に PRF コンテキストを含む場合、従来の PRF 手法に対して MS-MARCO および BEIR データセットで強いリコール改善をもたらす。より大きなモデルが効果に寄与し、CoT プロンプトが最良の性能を示し、PRF コンテキストはトップ重視の指標を改善する。

ABSTRACT

Query expansion is a widely used technique to improve the recall of search systems. In this paper, we propose an approach to query expansion that leverages the generative abilities of Large Language Models (LLMs). Unlike traditional query expansion approaches such as Pseudo-Relevance Feedback (PRF) that relies on retrieving a good set of pseudo-relevant documents to expand queries, we rely on the generative and creative abilities of an LLM and leverage the knowledge inherent in the model. We study a variety of different prompts, including zero-shot, few-shot and Chain-of-Thought (CoT). We find that CoT prompts are especially useful for query expansion as these prompts instruct the model to break queries down step-by-step and can provide a large number of terms related to the original query. Experimental results on MS-MARCO and BEIR demonstrate that query expansions generated by LLMs can be more powerful than traditional query expansion methods.

研究の動機と目的

prompting によって LLM が再学習なしで効果的なクエリ拡張を生成できるかを調査する。
ゼロショット、少数ショット、Chain-of-Thought プロンプトを QE の比較対象とする。
PRF コンテキストとモデルサイズが QE の有効性に及ぼす影響を評価する。
MS-MARCO と BEIR でドメイン適応性を理解する。

提案手法

元のクエリと LLM が生成した拡張を連結することとしてクエリ拡張を定式化する。
PRF コンテキストの有無とともに、8 つのプロンプトを検討する（Q2D, Q2D/ZS, Q2D/PRF, Q2E, Q2E/ZS, Q2E/PRF, CoT, CoT/PRF）。
拡張語を生成するために Q2D/Q2E プロンプトを使用し、元のクエリを5回繰り返してその語を強調する。
60M から 20B パラメータのサイズの Flan-T5 系列および Flan-UL2 の複数のオープンソースモデルを用いて評価する。
BM25 を検索基準として、QE のベースラインには Terrier 実装を用いる（Bo1、Bo2、KL）。
主指標として Recall@1K を測定し、トップ重視の性能指標として MR R@10 および NDCG@10 を用いる。対応の有意性は対比較 t 検定（p<0.01）で評価する。

実験結果

リサーチクエスチョン

RQ1 prompting によって LLM が生成した拡張語は、標準的な IR ベンチマークで従来の PRF ベースの QE よりリコールを改善できるか？
RQ2どの prompting スタイル（ゼロショット、Few-shot、Chain-of-Thought）が取得語の品質を最も向上させるか？
RQ3PRF 文書をプロンプトに組み込むことは有効か、モデルサイズは結果にどう影響するか？
RQ4LLM ベースの QE は MS-MARCO と BEIR の領域でどう異なるパフォーマンスを示すか？
RQ5実運用における LLM ベース QE の実用的考慮事項（モデルサイズ、コスト）は何か？

主な発見

Chain-of-Thought プロンプトはクエリ拡張時に MS-MARCO で最も強いリコール利得を生む。
CoT/PRF プロンプトは PRF コンテキストを活用してトップ重視の指標（MRR@10、NDCG@10）を改善する。
Q2D/PRF および CoT バリアントは Recall@1K で従来の PRF ベースライン（Bo1、Bo2、KL）を上回る。
MS-MARCO では一般に大規模モデルの方が性能が良く、CoT は約 3B パラメータ付近で BM25+Bo1 と同等の性能に達し、11B+ モデルで最良の結果を出す。
BEIR では PRF ベースの古典 QE がドメイン特化データセットで依然として強力だが、LLM ベースの QE は QA 指向データセット（fiqa、nq、msmarco、hotpotqa）で輝く。
PRF コンテキストの使用は小型モデルの性能を安定させるのに役立つが、非常に大きなサイズでは利得を抑制する可能性がある。実用導入には大規模モデルの蒸留により小型モデルへ移行することが提案される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。