[论文解读] Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search
本文提出 DevRev Search,一种使用大语言模型进行筛选的自动化多检索器数据创建管线,以及一种保持索引、在查询端进行自适应的 LoRA 策略,以实现可扩展的、面向租户的检索且无需重新索引。它分析了分层 LoRA 微调以及仅查询微调与联合查询-文档微调在企业与科学领域的对比。
Large-scale multi-tenant retrieval systems generate extensive query logs but lack curated relevance labels for effective domain adaptation, resulting in substantial underutilized "dark data". This challenge is compounded by the high cost of model updates, as jointly fine-tuning query and document encoders requires full corpus re-indexing, which is impractical in multi-tenant settings with thousands of isolated indices. We introduce DevRev-Search, a passage retrieval benchmark for technical customer support built via a fully automated pipeline. Candidate generation uses fusion across diverse sparse and dense retrievers, followed by an LLM-as-a-Judge for consistency filtering and relevance labeling. We further propose an Index-Preserving Adaptation strategy that fine-tunes only the query encoder, achieving strong performance gains while keeping document indices fixed. Experiments on DevRev-Search, SciFact, and FiQA-2018 show that Parameter-Efficient Fine-Tuning (PEFT) of the query encoder delivers a remarkable quality-efficiency trade-off, enabling scalable and practical enterprise search adaptation.
研究动机与目标
- 解决企业搜索领域缺乏标注数据(‘暗数据’)以及在多租户系统中更新文档编码器的高成本问题。
- 通过多检索器融合与基于 LLM 的筛选自动生成训练数据,构建可扩展的 DevRev Search 基准。
- 提出一种保持索引的适配工作流,仅对查询编码器使用 LoRA 进行微调,以避免文档重新索引。
- 研究层级目标与排序选择,以优化查询端自适应中的质量-效率权衡。
提出的方法
- 通过来自七个检索器(六个密集式、一个词汇式)的候选集合,结合互相关排名融合以及基于 LLM 的判定进行筛选,构建可扩展的 DevRev Search 数据集。
- 应用保持索引的自适应:仅对查询编码器进行 Low-Rank Adaptation (LoRA) 微调,同时冻结文档索引。
- 进行层敏感性实验,以确定哪些变换器组件(如 QV、FFN、QKV)和 LoRA 阶数在召回率与效率之间达到最佳平衡。
- 在 DevRev Search(企业数据)和 SciFact(科学领域)上进行评估,比较查询仅(Query-Only)与联合查询-文档微调(Joint QD)的效果。
- 使用带挖掘到的困难负样本的 InfoNCE 损失以及余弦调度器;分析对最佳性能应调哪一层查询编码器。

实验结果
研究问题
- RQ1查询仅微调能否在无需重新索引语料的前提下,与联合查询-文档微调在企业类领域相媲美或超越?
- RQ2LoRA 的阶数与目标模块微调如何影响不同数据集和模型规模下的检索质量与效率?
- RQ3层级目标(如 QV、FFN、全部层)对多租户设置中的召回率与参数效率有何影响?
- RQ4多检索器融合结合基于 LLM 的筛选是否能为领域自适应生成高质量的自动化训练数据?
主要发现
| Model | Recall@420 |
|---|---|
| gemini-embedding-001 | 82.48 |
| gte-Qwen2-7B-instruct | 82.25 |
| SFR-Embedding-Mistral | 79.20 |
| text-embedding-3-large | 75.54 |
| Qwen3-Embedding-8B | 70.12 |
| embed-english-v3 | 65.83 |
| BM25 | 52.18 |
- 查询仅自适应在 DevRev Search 基准上可超越联合 QD 微调,在企业数据上实现更高的 Recall@10,同时避免重新索引成本。
- 在 SciFact 上,查询仅保持高度竞争性,且与联合 QD 上限只相差 1-2%,显示了在生产系统中的实际可行性。
- LoRA 的阶数与层目标效应取决于数据集与模型规模;在 DevRev 上较小模型受益于更高容量(更高阶数、覆盖所有层),而在 SciFact 上较大模型偏好更有针对性且低阶数的微调(如 QV/FFN)。
- 对于 DevRev Search,个别检索器的最佳单模型召回率有限(最高 82.48%),因此需要一个多样化的 7 模型集成来进行数据集构建。
- 数据集统计显示 DevRev 训练集:291 条查询,每条查询平均有 13.61 个相关片段,体现企业数据中的高相关密度。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。