Skip to main content
QUICK REVIEW

[论文解读] Query, Decompose, Compress: Structured Query Expansion for Efficient Multi-Hop Retrieval

JungMin Yun, YoungBin Kim|arXiv (Cornell University)|Jan 14, 2026
Information Retrieval and Search Behavior被引用 0
一句话总结

DeCoR 引入一种用于多跳检索的两阶段结构化查询改进技术,将复杂查询分解为子查询并对检索文档中的证据进行压缩,从而在较小的 LLM 上提升性能。

ABSTRACT

Large Language Models (LLMs) have been increasingly employed for query expansion. However, their generative nature often undermines performance on complex multi-hop retrieval tasks by introducing irrelevant or noisy information. To address this challenge, we propose DeCoR (Decompose and Compress for Retrieval), a framework grounded in structured information refinement. Rather than generating additional content, DeCoR strategically restructures the query's underlying reasoning process and distills supporting evidence from retrieved documents. It consists of two core components tailored to the challenges of multi-hop retrieval: (1) Query Decomposition, which decomposes a complex query into explicit reasoning steps, and (2) Query-aware Document Compression, which synthesizes dispersed evidence from candidate documents into a concise summary relevant to the query. This structured design ensures that the final query representation remains both robust and comprehensive. Experimental results demonstrate that, despite utilizing a relatively small LLM, DeCoR outperforms strong baselines that rely on larger models. This finding underscores that, in complex retrieval scenarios, sophisticatedly leveraging the reasoning and summarization capabilities of LLMs offers a more efficient and effective solution than relying solely on their generative capability.

研究动机与目标

  • 在多跳检索中强调稳健的查询扩展需求,因为生成式扩展容易引入噪声。
  • 提出 DeCoR 来改进现有信息,而不是生成新内容。
  • 证明在结构化改进下的小型 LLM 在多跳 IR 上优于更大基线模型。

提出的方法

  • 引入两个核心组成:Query Decomposition 和 Query-aware Document Compression.
  • 利用 BM25 进行逐子查询检索以提高效率。
  • 将候选文档拼接并通过 LLM 压缩,采用全局显著性、跨文档证据整合与语义去重。
  • 通过对原始查询向量与子查询+压缩文档对的嵌入取均值来扩展最终查询。
  • 基于扩展查询嵌入与文档嵌入的余弦相似度对文档进行排序。

实验结果

研究问题

  • RQ1通过分解与压缩的结构化信息改进在多跳检索中是否能超越生成式查询扩展?
  • RQ2使用带有分解与压缩的小型 LLM 是否在不损失准确性的前提下提供效率提升?
  • RQ3DeCoR 的各组件的消融对检索性能有何影响?
  • RQ4不同嵌入策略对最终检索质量有何影响?

主要发现

  • DeCoR 在三种基线检索器上对基线和其他扩展方法的 Hits@10、Hits@4、MAP@10、MARR@10 均有持续提升。
  • 在 e5-base-v2 下,DeCoR 达到 Hits@10=72.42、Hits@4=59.42、MAP@10=22.66、MARR@10=51.95。
  • 消融实验表明去掉任一组件都会降低性能,其中查询分解对多样性和覆盖度有显著贡献。
  • 拼接后压缩并对嵌入取均值的方式优于如文档级压缩、简单拼接等替代方案。
  • 使用相对较小的模型(Qwen2.5-7B)的 DeCoR 在多跳 IR 中可以超越更大规模的生成基线(如 GPT-3.5)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。