Skip to main content
QUICK REVIEW

[論文レビュー] OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Hui Fang, Shuai Zhang|arXiv (Cornell University)|Mar 17, 2026
Information Retrieval and Search Behavior被引用数 0
ひとこと要約

OPERAはdense retriever適応のための動的データ剪定(DP)を導入し、品質とカバレッジのトレードオフを解消。ドメイン間でのNDCGとRecallを改善し、収束を速め、LLMベースのリトリーバーにも適用可能。

ABSTRACT

Domain-specific finetuning is essential for dense retrievers, yet not all training pairs contribute equally to the learning process. We introduce OPERA, a data pruning framework that exploits this heterogeneity to improve both the effectiveness and efficiency of retrieval model adaptation. We first investigate static pruning (SP), which retains only high-similarity query-document pairs, revealing an intrinsic quality-coverage tradeoff: ranking (NDCG) improves while retrieval (Recall) can degrade due to reduced query diversity. To resolve this tradeoff, we propose a two-stage dynamic pruning (DP) strategy that adaptively modulates sampling probabilities at both query and document levels throughout training, prioritizing high-quality examples while maintaining access to the full training set. Evaluations across eight datasets spanning six domains demonstrate the effectiveness of both approaches: SP improves ranking over standard finetuning (NDCG@10 +0.5\%), while DP achieves the strongest performance on both ranking (NDCG@10 +1.9\%) and retrieval (Recall@20 +0.7\%), with an average rank of 1.38 across all methods. These findings scale to Qwen3-Embedding, an LLM-based dense retriever, confirming architecture-agnostic benefits. Notably, DP reaches comparable performance in less than 50\% of the training time required by standard finetuning.

研究の動機と目的

  • データ品質が検索モデルのファインチューニングに与える影響を特定し、標準的な訓練と剪定ベース訓練の内部的トレードオフを明らかにする。
  • dense retrieverにおけるランキングを損なうことなく再剪定フレームワーク(SPとDP)を開発する。
  • 複数のドメインとアーキテクチャにおいてSPとDPの有効性と効率を示す。
  • 動的剪定が固定反復訓練と統合可能であり、情報価値の高いサンプルを優先しつつデータカバレッジを保持できることを示す。

提案手法

  • 高類似度のクエリ-ドキュメントペアを保持して静的剪定(SP)を検討し、品質とカバレッジのトレードオフを分析する。
  • クエリ/ドキュメント採取の階層的サンプリングとコサイン閾値を用いた柔らかなサンプリング確率の動的調整によるDPを提案する。
  • 訓練中にクエリとドキュメントのサンプリング確率を適応的に更新し、データ全体へのアクセスを保持する。
  • 剪定がいつ役立つかについての理論的洞察を提供し、真陽性信号がノイズを上回ることを示す正式な結果(定理1)。
  • 8データセット、6ドメイン、2つのアーキテクチャ(エンコーダーのみのBGEとデコーダーベースのQwen3-Embedding)でOPERAを評価する。
  • DPをベースラインのファインチューニングおよび他の剪定手法と比較し、階層剪定のアブレーションと効率分析を含めて評価する。
Figure 1: Comparison of sampling probability distributions across training strategies. Left three panels: Standard finetuning (FT) samples all data pairs uniformly, while static pruning (SP) discards the lowest-similarity ones and up-weights the rest, improving ranking but reducing query coverage. D
Figure 1: Comparison of sampling probability distributions across training strategies. Left three panels: Standard finetuning (FT) samples all data pairs uniformly, while static pruning (SP) discards the lowest-similarity ones and up-weights the rest, improving ranking but reducing query coverage. D

実験結果

リサーチクエスチョン

  • RQ1OPERAは多様なドメインで標準のファインチューニングおよび剪定ベースのベースラインと比較してランキングと検索の両方の指標を向上させるか?
  • RQ2OPERAの発見はLLMベースのdense retriever(LLM埋め込みアーキテクチャ)にも適用可能か?
  • RQ3OPERAはノイズの多い訓練データに対してどれだけ頑健で、収束速度と効率にどう影響するか?
  • RQ4OPERAの計算オーバーヘッドはどれくらいで、最適化の方法は?
  • RQ5動的剪定は時間をかけてどのようにクエリとドキュメントに対する訓練の焦点を割り当てるのか?

主な発見

  • 静的剪定はランキング(NDCG)は向上するが、クエリの多様性が減少するため検索(Recall)が劣化する可能性がある。
  • 動的剪定(DP)はデータ全体へのアクセスを維持し、ハイ品質の例に適応的に集中することで、最良の総合性能を得る。
  • DPはほとんどのデータセットとアーキテクチャでランキング(NDCG@10)と検索(Recall@20)の双方で最も強い結果を達成する。
  • DPは標準のファインチューニングと比較して収束時間を平均で半減する。
  • DPはLLMベースのリトリーバー(Qwen3-Embedding-0.6B)にも有効性を示し、アーキテクチャに依存しない利点を示す。
  • ノイズの多いデータシナリオではSPがDPより検索で上回ることもあるが、二段階のSPの後にDPを用いると最良のRecallを得られ、DP単独でも顕著なランキング改善を達成する。
Figure 2: Training efficiency on ANTIQUE (unseen) and FEVER (seen). RP and SP use retention rate $k{=}0.25$ .
Figure 2: Training efficiency on ANTIQUE (unseen) and FEVER (seen). RP and SP use retention rate $k{=}0.25$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。