[論文レビュー] Query, Decompose, Compress: Structured Query Expansion for Efficient Multi-Hop Retrieval
DeCoR は、複数ホップ検索のための二段階・構造化クエリ改良技術を導入し、複雑なクエリをサブクエリに分解し、取得文書からの証拠を圧縮することで、より小さな LLM での性能を向上させる。
Large Language Models (LLMs) have been increasingly employed for query expansion. However, their generative nature often undermines performance on complex multi-hop retrieval tasks by introducing irrelevant or noisy information. To address this challenge, we propose DeCoR (Decompose and Compress for Retrieval), a framework grounded in structured information refinement. Rather than generating additional content, DeCoR strategically restructures the query's underlying reasoning process and distills supporting evidence from retrieved documents. It consists of two core components tailored to the challenges of multi-hop retrieval: (1) Query Decomposition, which decomposes a complex query into explicit reasoning steps, and (2) Query-aware Document Compression, which synthesizes dispersed evidence from candidate documents into a concise summary relevant to the query. This structured design ensures that the final query representation remains both robust and comprehensive. Experimental results demonstrate that, despite utilizing a relatively small LLM, DeCoR outperforms strong baselines that rely on larger models. This finding underscores that, in complex retrieval scenarios, sophisticatedly leveraging the reasoning and summarization capabilities of LLMs offers a more efficient and effective solution than relying solely on their generative capability.
研究の動機と目的
- 多段階検索におけるノイズを含む生成的拡張の問題を動機づけ、堅牢なクエリ拡張の必要性を示す。
- DeCoR を提案し、情報を新たに生成するのではなく既存情報を精製する。
- 小さな LLM が構造化された改良を用いることで、多段階 IR において大きなベースラインよりも性能を上回ることを示す。
提案手法
- 2つの中核コンポーネントを導入する:クエリ分解とクエリ意識的文書圧縮。
- 効率のために BM25 を用いてサブクエリごとに検索を実行する。
- 候補文書を連結し、グローバルな顕在性、文書間証拠統合、意味的デデュプリケーションを用いて LLM で圧縮する。
- 元のクエリとサブクエリ+圧縮文書のペアの埋め込みを平均化して最終クエリを展開する。
- 展開されたクエリの埋め込みと文書埋め込みとのコサイン類似度で文書を順位付けする。
実験結果
リサーチクエスチョン
- RQ1分解と圧縮を通じた構造化情報の改良は、マルチホップ検索で生成的クエリ拡張を上回るか。
- RQ2分解と圧縮を備えた小さな LLM を使用して、精度を犠牲にすることなく効率性を高められるか。
- RQ3DeCoR の構成要素のアブレーションは検索性能にどのような影響を与えるか。
- RQ4異なる埋め込み戦略が最終的な検索品質に与える影響はどのようになるか。
主な発見
| Method | Hits@10 | Hits@4 | MAP@10 | MARR@10 |
|---|---|---|---|---|
| Contriever (Baseline) | 62.75 | 48.43 | 17.98 | 40.57 |
| Contriever + DeCoR | 64.48 | 50.91 | 20.07 | 44.60 |
| e5-base-v2 (Baseline) | 69.05 | 53.61 | 19.60 | 44.55 |
| e5-base-v2 + DeCoR | 72.42 | 59.42 | 22.66 | 51.95 |
| bge-large-en-v1.5 (Baseline) | 68.96 | 54.63 | 19.97 | 45.20 |
| bge-large-en-v1.5 + DeCoR | 72.06 | 58.23 | 22.70 | 51.39 |
- DeCoR は、3つのベースリトリーバーに対して、ベースラインや他の拡張手法と比較して Hits@10、Hits@4、MAP@10、MARR@10 を一貫して改善する。
- e5-base-v2 の場合、DeCoR は Hits@10=72.42、Hits@4=59.42、MAP@10=22.66、MARR@10=51.95 を達成する。
- アブレーションによりいずれかの構成要素を排除すると性能が低下し、クエリ分解は多様性とカバレッジに著しく寄与する。
- Concatenate-then-compress および平均埋め込みは、文書単位の圧縮や単純な連結などの代替案を上回る。
- DeCoR は比較的小さなモデル(Qwen2.5-7B)を用いて、マルチホップ IR において大規模な生成ベースライン(例:GPT-3.5)より優れる場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。