Skip to main content
QUICK REVIEW

[論文レビュー] Autoregressive Search Engines: Generating Substrings as Document Identifiers

Michele Bevilacqua, Giuseppe Ottaviano|arXiv (Cornell University)|Apr 22, 2022
Topic Modeling被引用数 66
ひとこと要約

SEAL は autoregressive language model と圧縮された全文サブストリングインデックス(FM-index)を組み合わせて、ドキュメント識別子として n-gram を生成・スコアリングし、効率的な検索を実現するとともに、知識集約タスクでの下流結果を強力に達成します。

ABSTRACT

Knowledge-intensive language tasks require NLP systems to both provide the correct answer and retrieve supporting evidence for it in a given corpus. Autoregressive language models are emerging as the de-facto standard for generating answers, with newer and more powerful systems emerging at an astonishing pace. In this paper we argue that all this (and future) progress can be directly applied to the retrieval problem with minimal intervention to the models' architecture. Previous work has explored ways to partition the search space into hierarchical structures and retrieve documents by autoregressively generating their unique identifier. In this work we propose an alternative that doesn't force any structure in the search space: using all ngrams in a passage as its possible identifiers. This setup allows us to use an autoregressive model to generate and score distinctive ngrams, that are then mapped to full passages through an efficient data structure. Empirically, we show this not only outperforms prior autoregressive approaches but also leads to an average improvement of at least 10 points over more established retrieval solutions for passage-level retrieval on the KILT benchmark, establishing new state-of-the-art downstream performance on some datasets, while using a considerably lighter memory footprint than competing systems. Code and pre-trained models at https://github.com/facebookresearch/SEAL.

研究の動機と目的

  • 自己回帰モデルを活用して知識集約的な検索の改善を動機づける。
  • 構造的制約を課すことなく、文書内の全 n-gram を識別子として用いる検索手法を提案する。
  • 生成を制約するために自己回帰LMとFM-indexを統合し、文書を取得する。
  • n-gram の LM 確率とコーパス頻度を組み合わせる新しいスコアリング機構を開発する。

提案手法

  • 自己回帰モデルとして BART を用いて、文書から固定長の制約付き n-grams を生成する。
  • FM-index を用いてデコードを制約し、生成された n-grams を含む文書を O(|n| log |V|) で識別する。
  • P(n|q) とコーパス頻度 P(n) を組み合わせて LM+FM スコアを形成し、文書をスコアリングする。
  • カバレッジを意識した重みで、文書ごとに複数の n-gram を統合する交差的スコアリングを導入する。
  • KILT データセット上で教師ありおよび教師なし信号で SEAL を訓練し、頑健な n-gram 生成を学習させる。

実験結果

リサーチクエスチョン

  • RQ1自己回帰的な n-gram の生成は、事前に定義されたインデックス構造を課すことなく、効果的な識別子を提供できるか。
  • RQ2LM 確率とFM-index の頻度を組み合わせると、データセットを跨ぐ検索の精度とロバスト性が向上しますか。
  • RQ3文書ごとに複数の n-gram を集約する(交差的スコアリング)ことが、単一の n-gram スコアリングよりも良いランキングを生み出しますか。
  • RQ4標準のリーダーと組み合わせた場合、SEAL はパッセージレベルの検索と下流の QA にどの程度適用できるか。

主な発見

  • SEAL は既知のベンチマークで最近の自己回帰型検索手法と同等か、それらを上回る。
  • LM+FM と交差的スコアリングは、リーダーと組み合わせた複数のデータセットで最先端の下流性能を提供する。
  • SEAL は大幅なメモリ効率を実現し、いくつかのベースラインよりインデックスのフットプリントが小さい。
  • 解釈可能な n-gram 生成は、新規の質問と回答への一般化の改善を示す。
  • SEAL の交差的スコアリングは、補完的な n-gram 信号を統合することで top-k 検索を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。