QUICK REVIEW

[論文レビュー] Fast Passage Re-ranking with Contextualized Exact Term Matching and Efficient Passage Expansion

Shengyao Zhuang, Guido Zuccon|arXiv (Cornell University)|Aug 19, 2021

Topic Modeling参考文献 45被引用数 48

ひとこと要約

TILDEv2はTILDEを文脈化された厳密語句照合とパッセージ展開に置換し、CPUのみでの最先端のパッセージ再ランキングを実現、インデックスサイズを最大99%削減し、レイテンシを100 ms以下に維持しつつTILDEより有効性を向上させる。

ABSTRACT

BERT-based information retrieval models are expensive, in both time (query latency) and computational resources (energy, hardware cost), making many of these models impractical especially under resource constraints. The reliance on a query encoder that only performs tokenization and on the pre-processing of passage representations at indexing, has allowed the recently proposed TILDE method to overcome the high query latency issue typical of BERT-based models. This however is at the expense of a lower effectiveness compared to other BERT-based re-rankers and dense retrievers. In addition, the original TILDE method is characterised by indexes with a very high memory footprint, as it expands each passage into the size of the BERT vocabulary. In this paper, we propose TILDEv2, a new model that stems from the original TILDE but that addresses its limitations. TILDEv2 relies on contextualized exact term matching with expanded passages. This requires to only store in the index the score of tokens that appear in the expanded passages (rather than all the vocabulary), thus producing indexes that are 99% smaller than those of TILDE. This matching mechanism also improves ranking effectiveness by 24%, without adding to the query latency. This makes TILDEv2 the state-of-the-art passage re-ranking method for CPU-only environments, capable of maintaining query latency below 100ms on commodity hardware.

研究の動機と目的

CPUに優しい第2段階のランキングを可能にすることで、BERTベースの再ランキングの高いクエリ遅延に対処する。
効果を損なうことなく、TILDEと比較してインデックスのメモリ使用量を削減する。
クエリ尤度照合を置換する文脈化された厳密語句照合を導入する。
語彙不一致を緩和するため、インデックス作成時にTILDEベースの展開から得られた意味的に関連するトークンを追加してパッセージ展開を行う（docT5queryを置換）。
CPU制約下でMS MARCOおよびDL2019/2020データセットで最先端の性能を実証する。

提案手法

BERTトークナイザーを用いてクエリをスパースでクエリ長の特徴ベクトルにエンコードするトークナイザーベースのクエリエンコーダ（クエリ時のモデル推論は実行しない）。
passage tokensに対してBERTベースの射影によってスカラー重みを割り当て、パッセージのトークンと厳密な語の照合を可能にする文脈化された厳密語句照合。
負例サンプルを用いた訓練のためのノイズ対照推定(NCE)損失の使用（S(q,p+)、S(q,p−)）。
語彙不一致を緩和するため、インデックス作成時にTILDEベースの展開から得られた意味的に関連するトークンを追加してパッセージ展開を行う（docT5queryを置換）。
展開は元のTILDEモデルを用いてトークンの尤度を生成し、パッセージや停止語リストに含まれない上位mトークンを選択して展開を行う（アルゴリズム1）。
インデックスは、パッセージに含まれるトークンとその最大文脈化語重みのみを含む軽量な構造として格納され、インデックスサイズを劇的に削減する。

実験結果

リサーチクエスチョン

RQ1RQ1: 文脈化された厳密語句照合は元のTILDEのクエリ尤度照合より効果的で効率的か？
RQ2RQ2: TILDEv2はベースライン（BM25, docT5query, DeepImpact, uniCOIL, RepBERT, ANCE, EPIC, BERTベースの再ランキング）と比較して、効果とレイテンシの点でどうか？
RQ3RQ3: 様々なカットオフにおける強力なBERTリランキングと比較したときの、TILDEv2の効果-効率のトレードオフは？
RQ4RQ4: 提案されたTILDEベースのパッセージ展開は、docT5queryと比較してどれだけ効果的かつ効率的か？

主な発見

方法	MRR@10	nDCG@10	MAP	nDCG@10 (DL2019)	MAP (DL2020)	GPU	CPU	Latency (ms)
TILDE+BM25-top1000	0.269	0.579	0.406	0.620	0.406	n.a.	76.6	76.6
TILDE+d2q-top10	0.285	0.650	0.467	0.624	0.417	n.a.	n.a.	75.3
TILDEv2+BM25-top1000	0.333	0.676	0.448	0.659	0.433	n.a.	80.8	80.8
TILDEv2+d2q-top100	0.341	0.703	0.498	0.669	0.449	n.a.	n.a.	76.4

TILDEv2の文脈化された厳密語句照合は、TILDEのクエリ尤度照合より効果を高め、BM25で再ランキングした場合MS MARCOで最大24％の改善（docT5queryで再ランキングした場合は20％）を達成。
CPUに優しいレイテンシー（<100 ms）を維持し、BM25またはdocT5queryのパイプラインに数ミリ秒のみを追加しつつ、競争力のある有効性を達成。
インデックスサイズを大幅に削減（TILDEより最大99%小さく）し、最大文脈化語重みを持つパッセージトークンのみを格納するため、語彙全体を格納しない。
元のTILDEを用いたパッセージ展開（docT5queryではなく）が高速展開を可能にし、MS MARCOでdocT5queryの展開に比べて7.3時間かかるのが、TILDEベースの展開ではそのごく一部の時間で済む
MS MARCOおよびDL2019/DL2020で、TILDEv2はベースラインと同等またはそれ以上の有効性を示しつつ、特にCPU上でのレイテンシを大幅に削減（≤80 ms）。
3段階パイプライン（BM25 → TILDEv2 → BERT-largeリランキング）で、トップパッセージ上でBERT-largeのみを用いる場合よりも、同等以上の有効性を達成しつつレイテンシを大幅に低減できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。