[论文解读] The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training
论文提出复杂性-多样性原理(CDP),指出查询复杂性决定多查询多样性在密集检索器中的效果何时有帮助,并提出 CW 加权训练以提升对OOD的泛化能力。
Synthetic query generation has become essential for training dense retrievers, yet prior methods generate one query per document, focusing solely on query quality. We are the first to systematically study multi-query synthesis and discover a quality-diversity trade-off: high-quality queries benefit in-domain tasks, while diverse queries benefit out-of-domain (OOD) generalization. Through controlled experiments on 4 benchmark types across Contriever, RetroMAE, and Qwen3-Embedding, we find that diversity benefit strongly correlates with query complexity (r$\geq$0.95, p<0.05), approximated by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. Based on CDP, we propose complexity-aware training: multi-query synthesis for high-complexity tasks and CW-weighted training for existing data. Both strategies improve OOD performance on reasoning-intensive benchmarks, with compounded gains when combined.
研究动机与目标
- 研究在单文档生成多条查询(多查询合成)是否能提升密集检索器的泛化能力,超越1:1的查询-文档对。
- 刻画合成查询中的质量-多样性权衡,并识别在就地(in-domain)与跨域(OOD)中多样性何时有益。
- 提出基于查询复杂性的度量与阈值,以控制多样性。
- 引入基于CW的加权训练,在检索器训练中利用内容词的复杂性。
- 在多个数据集和检索器架构上验证CDP的鲁棒性。
提出的方法
- 零-shot 的多查询合成,在单次大语言模型调用中为每个文档生成M个不同查询(温度参数为0)。
- 提出包含多种格式的多样化提示(事实、过程、因果、条件、关键词、陈述、比较)以诱导语义多样性。
- 定义并计算质量-多样性(Q-D)指标:用于质量的 Dist-Sim 与 Len-Sim;用于多样性的 CE 与 Self-BLEU。
- 通过对比 Diverse 模式(真实语义多样性)与 Paraphrase 模式(低多样性)引入多样性调控。
- 将内容词(CW)定义为非停用词中的独特词来衡量查询复杂性;在批量中引入 CW 加权训练并进行归一化权重截断(κ)。
- 在 MS MARCO、BEIR、BRIGHT、以及多跳数据集上,使用 Contriever、RetroMAE、Qwen3-Embedding 检索器进行评估。
- 通过跨架构实验和外部管线(ReasonEmbed)验证 CDP ,以展示多查询与 CW 加权的可迁移性。
实验结果
研究问题
- RQ1生成每个文档多条查询(多查询合成)是否提升密集检索器的性能,尤其是在跨域场景?
- RQ2查询质量与多样性之间的关系如何?是否存在多样性变得有益的阈值?
- RQ3查询复杂性(CW)与训练中多样性效果之间的关系是什么?
- RQ4CW 加权训练是否能提升OOD泛化,并且它与多查询策略如何相互作用?
- RQ5CDP 的发现是否在不同检索器架构和数据管道中保持一致?
主要发现
- 多查询合成呈现质量-多样性权衡:就地(in-domain)质量在查询更少时提升,而多样性可提升OOD性能。
- 多样性收益与查询复杂性(CW)强相关,在多种条件下相关系数r≥0.95,提示基于CW的阈值。
- CW 基于的阈值:CW>10倾向于使用多样性;CW<7建议避免;报告的一个推导临界点约为CW=7.9,用于预测正向多样性影响。
- CW 加权训练即使在单查询数据上也能提升OOD泛化,并且可与多查询多样性互补。
- 在多跳和需要推理的任务上多样性带来最大增益,NovelHopQA 展现最强益处,2WikiMultihopQA 在某些设置中影响较小甚至略有负面。
- 该方法在不同的检索器架构(Contriever、RetroMAE、Qwen3-Embedding)以及外部数据管线(ReasonEmbed)之间具有可迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。