Skip to main content
QUICK REVIEW

[論文レビュー] Document Expansion by Query Prediction

Rodrigo Nogueira, Wei Yang|arXiv (Cornell University)|Apr 17, 2019
Topic Modeling参考文献 27被引用数 210
ひとこと要約

本論文は Doc2query を提案する。各文書のクエリを予測し、インデックス作成前に文書テキストを拡張するニューラルな文書拡張法であり、BM25と任意の BERT による再ランキングを組み合わせた場合に強い成果を上げる。

ABSTRACT

One technique to improve the retrieval effectiveness of a search engine is to expand documents with terms that are related or representative of the documents' content.From the perspective of a question answering system, this might comprise questions the document can potentially answer. Following this observation, we propose a simple method that predicts which queries will be issued for a given document and then expands it with those predictions with a vanilla sequence-to-sequence model, trained using datasets consisting of pairs of query and relevant documents. By combining our method with a highly-effective re-ranking component, we achieve the state of the art in two retrieval tasks. In a latency-critical regime, retrieval results alone (without re-ranking) approach the effectiveness of more computationally expensive neural re-rankers but are much faster.

研究の動機と目的

  • 語彙ミスマッチに対処するため、クエリ表現を強化するのではなく文書表現を豊かにする。
  • 各文書に対してシーケンス対シーケンス変換器を用いてもっともらしいクエリを予測する。
  • MS MARCOとTREC-CARデータセットで文書拡張を評価し、検索性能の向上を評価する。
  • 文書拡張をクエリ拡張およびベースライン検索と比較する。
  • インデックス作成前の拡張が、ニューラル再ランキングの代替または補完となり得る一方でスピードを向上させることを示す。

提案手法

  • トランスフォーマーを用いた seq2seq モデルを (query, relevant document) のペアで訓練し、文書テキストからクエリを生成する。
  • 文書を400トークン、100トークンのクエリに切り詰めることでメモリを管理する。
  • top-k ランダムサンプリングを用いて各文書につき10個の予測クエリを生成。
  • 予測クエリを文書に付加し、BM25でインデックス化する。
  • 最後のランキングを向上させるために、取得結果をBERTで再ランキングすることも可能。
  • 再現性のためのオープンソースコードと訓練済みモデルを提供。

実験結果

リサーチクエスチョン

  • RQ1予測クエリによる文書拡張は、標準の BM25 より初期の検索性能を向上させるか。
  • RQ2長文文書では文書拡張はクエリ拡張より効果的か。
  • RQ3Doc2query 拡張文書の上に再ランキングを使うことはどのような影響か(例:BERT)。
  • RQ4MS MARCO や TREC-CAR のような多様なデータセットでの Doc2query の性能はどうか。
  • RQ5best 取得利得を生むデ decoding scheme は beam search か top-k sampling か。

主な発見

  • Doc2query での文書拡張は、BM25 のみと比較して MS MARCO と TREC-CAR の両方で約15%の検索効果向上をもたらす。
  • Doc2query と BERT 再ランキングを組み合わせると、TREC-CAR で既知の最高結果を達成し、MS MARCO では最先端に近い。
  • Doc2query はコピー語と新規語の混在で文書を拡張し、検索に補完的な信号を提供する。
  • RM3 クエリ拡張は、これらの精度志向データセットでは性能を向上させない。
  • Doc2query の拡張は BM25 より若干の待ち時間を加えるが、BERT を用いた Duet v2 のようなニューラル再ランキングよりはまだ高速。
  • インデックス作成前の拡張は、クエリ時推論から文書インデックス作成時の計算負荷へと移行する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。