[論文レビュー] Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation
DSI-QG は Differentiable Search Index における indexing と retrieval のデータ分布ずれに対処するため、文書を一連の生成クエリとして表現し、クロスエンコーダーで共同ランキングすることで indexing と retrieval の入力を整合させ、モノリンガルおよびクロスリンガル検索性能を向上させる。
The Differentiable Search Index (DSI) is an emerging paradigm for information retrieval. Unlike traditional retrieval architectures where index and retrieval are two different and separate components, DSI uses a single transformer model to perform both indexing and retrieval. In this paper, we identify and tackle an important issue of current DSI models: the data distribution mismatch that occurs between the DSI indexing and retrieval processes. Specifically, we argue that, at indexing, current DSI methods learn to build connections between the text of long documents and the identifier of the documents, but then retrieval of document identifiers is based on queries that are commonly much shorter than the indexed documents. This problem is further exacerbated when using DSI for cross-lingual retrieval, where document text and query text are in different languages. To address this fundamental problem of current DSI models, we propose a simple yet effective indexing framework for DSI, called DSI-QG. When indexing, DSI-QG represents documents with a number of potentially relevant queries generated by a query generation model and re-ranked and filtered by a cross-encoder ranker. The presence of these queries at indexing allows the DSI models to connect a document identifier to a set of queries, hence mitigating data distribution mismatches present between the indexing and the retrieval phases. Empirical results on popular mono-lingual and cross-lingual passage retrieval datasets show that DSI-QG significantly outperforms the original DSI model.
研究の動機と目的
- DSI の indexing(長文)と retrieval(短いクエリ)とのデータ分布ずれを特定する。
- 生成クエリで文書を表現する indexing フレームワーク(DSI-QG)を提案し、indexing と retrieval の入力を整合させる。
- クロスリンガルクエリ生成を可能にして、クロスリンガル検索性能を向上させる。
- DSI-QG がモノリンガルおよびクロスリンガルデータセットで、元の DSI および他のベースラインを大幅に上回ることを実証する。
提案手法
- 各文書について、潜在的に関連するクエリのセットを生成するクエリ生成モデルを使用する。
- 生成されたクエリを cross-encoder ランカーでランク付けし、文書を表現するために上位 m 個のクエリを保持する。
- DSI モデルを訓練し、各文書の生成クエリをその docid と関連付ける。
- クロスリンガルクエリ生成を任意で適用して、多言語の T5 を介したクロスリンガル検索をサポートする。
- indexing 時に、入力分布が retrieval 時のクエリと一致するように、文書を上位 m 個の生成クエリに置換する。
- mono-lingual(NQ 320k)およびクロスリンガル( XOR QA 100k )データセットで標準 IR 指標を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1DSI の indexing と retrieval のデータ分布ドリフトを、文書を生成クエリに置換することで低減できるか?
- RQ2モノリンガル検索タスクで、元の DSI および他のベースラインと比較して DSI-QG のパフォーマンスはどうか?
- RQ3DSI-QG はクロスリンガルクエリ生成を用いて、クロスリンガル検索性能を改善できるか?
- RQ4生成クエリの数(m)とクロスエンコーダー ranking のステップがパフォーマンスに与える影響はどの程度か?
- RQ5生成クエリがどのような定性的特徴を示し、それが検索にどのように影響するか?
主な発見
- DSI-QG はモノリンガル NQ 320k において元の DSI を大幅に上回り、Hits@1 と Hits@10 の大幅な向上を、モデルサイズに関係なく達成する(例:DSI-QG-base および DSI-QG-large は DSI-base および DSI-large に対して大幅な改善を示す)。
- モノリンガル検索では、T5-base を用いた DSI-QG が Hits@1 63.49、Hits@10 82.36 を達成する一方、DSI-base は著しく劣る。
- クロスエンコーダー ranking と top-m クエリ選択を用いた DSI-QG は、XOR QA 100k において言語間で頑健なゲインを生み出し、多くのケースで言語間で最高の Hits@1 を達成する。
- クロスリンガルクエリ生成は、文書とクエリの間の言語ギャップを埋め、元の DSI で観察されたデータ分布のずれと言語不一致の影響を緩和するのに寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。