QUICK REVIEW

[論文レビュー] Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Prateek Jain, Shabari S Nair|arXiv (Cornell University)|Jan 8, 2026

Information Retrieval and Search Behavior被引用数 0

ひとこと要約

論文は、フィルタリングにLLMを用いた自動化されたマルチレトリーバー型データ作成パイプラインであるDevRev Searchを紹介し、再インデックス作成なしにスケーラブルなテナント特化検索を可能にするインデックス保持型、クエリサイド適応（LoRA）戦略を提案する。層別LoRAチューニングを分析し、エンタープライズ領域と科学領域でのクエリのみの微調整と結合微調整を比較する。

ABSTRACT

Large-scale multi-tenant retrieval systems generate extensive query logs but lack curated relevance labels for effective domain adaptation, resulting in substantial underutilized "dark data". This challenge is compounded by the high cost of model updates, as jointly fine-tuning query and document encoders requires full corpus re-indexing, which is impractical in multi-tenant settings with thousands of isolated indices. We introduce DevRev-Search, a passage retrieval benchmark for technical customer support built via a fully automated pipeline. Candidate generation uses fusion across diverse sparse and dense retrievers, followed by an LLM-as-a-Judge for consistency filtering and relevance labeling. We further propose an Index-Preserving Adaptation strategy that fine-tunes only the query encoder, achieving strong performance gains while keeping document indices fixed. Experiments on DevRev-Search, SciFact, and FiQA-2018 show that Parameter-Efficient Fine-Tuning (PEFT) of the query encoder delivers a remarkable quality-efficiency trade-off, enabling scalable and practical enterprise search adaptation.

研究の動機と目的

エンタープライズ検索領域のラベル付きデータ不足（“ダークデータ”）とマルチテナントシステムでのドキュメントエンコーダの更新コストの高さを解消する。
マルチレトリーバー融合とLLMベースのフィルタリングを介して訓練データを自動生成し、スケーラブルなDevRev Searchベンチマークを構築する。
インデックスを保持した適応ワークフローを提案し、LoRAを用いてクエリエンコーダのみを微調整してドキュメントの再インデックスを回避する。
クエリサイド適応の品質と効率のトレードオフを最適化するための層ターゲティングとランク選択を調査する。

提案手法

7つのリトリーバー（6つの密集表現、1つの語彙表現）から候補をプールし、相互ランク融合とLLMベースのジャッジでフィルタリングしてDevRev Searchデータセットを拡張する。
インデックスを保持した適応を適用：ドキュメントインデックスを固定しつつ、クエリエンコーダのみLow-Rank Adaptation（LoRA）で微調整する。
どのトランスフォーマー構成要素（例：QV、FFN、QKV）とLoRAランクがRecallと効率のバランスを最適化するかを層感度実験で調べる。
DevRev Search（エンタープライズ）とSciFact（科学）で評価し、クエリのみの微調整とクエリ-ドキュメントの結合微調整を比較する。
mined hard negativesとコサインスケジューラを用いたInfoNCE損失を使用し、最適な性能のためにどのクエリエンコーダ層を調整するかを分析する。

実験結果

リサーチクエスチョン

RQ1再インデックスなしでエンタープライズ風の領域において、クエリのみの微調整はジョイントのクエリ-ドキュメント微調整と同等以上になり得るか。
RQ2LoRAのランクとターゲットモジュールの調整が、データセットとモデルサイズの異なる場合に検索品質と効率にどう影響するか。
RQ3層ターゲティング（例：QV対FFN対全層）がマルチテナント設定でRecallとパラメータ効率に与える影響はどの程度か。
RQ4マルチレトリーバー融合とLLMベースのフィルタリングが、ドメイン適応のための高品質な自動生成訓練データを生み出すか。

主な発見

Model	Recall@420
gemini-embedding-001	82.48
gte-Qwen2-7B-instruct	82.25
SFR-Embedding-Mistral	79.20
text-embedding-3-large	75.54
Qwen3-Embedding-8B	70.12
embed-english-v3	65.83
BM25	52.18

クエリのみの適応はDevRev SearchベンチマークでジョイントQDチューニングを上回り、エンタープライズデータでRecall@10を向上させつつ再インデックスコストを回避する。
SciFactではクエリのみが高い競争力を維持し、ジョイントQD上限の1-2%以内であり、実運用システムでの実用性を示す。
LoRAランクと層ターゲティングの効果はデータセットとモデルに依存する；DevRevでは小型モデルが高容量（高ランク、全層）で恩恵を受ける一方、SciFactでは大規模モデルがターゲット型、低ランクの調整（例：QV/FFN）を好む。
DevRev Searchでは個々のリトリーバーからの最適単一モデルRecallが限られており（最高82.48%）、データセット構築のために多様な7モデルのアンサンブルが必要である。
データセット統計はDevRev Training: 問い合わせ291件、各問い合わせあたり平均13.61の関連チャンクを含み、エンタープライズデータにおける関連性密度の高さを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。