Skip to main content
QUICK REVIEW

[論文レビュー] REALM: Retrieval-Augmented Language Model Pre-Training

Kelvin Guu, Kenton Lee|arXiv (Cornell University)|Feb 10, 2020
Topic Modeling参考文献 38被引用数 513
ひとこと要約

REALM は大規模テキストコーパス上で学習されたニューラルリトリーバを用いた事前学習を追加し、端から端までの教師なし事前学習を可能にするとともに、オープンデメ QA の性能を改善します。従来のリトリーバ基盤・生成基盤の手法を三つの Open-QA ベンチマークで優れた性能を示しつつ、モデルサイズを適度に保ちます。

ABSTRACT

Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.

研究の動機と目的

  • 潜在的な知識リトリーバを事前学習に統合して、世界知識をよりモジュラーに捕捉することを動機づける。
  • Unspervised MLM 信号で訓練するエンドツーエンドのリトリーバーと知識強化エンコーダを開発する。
  • オープンQAタスクの事前学習およびファインチューニング時に retrieval-then-predict を有効にする。
  • MIPS ベースのリトリーバルと非同期インデックス刷新によるスケーラビリティを実証する。
  • 設計選択を導くための解釈可能なリトリーバー挙動とアブレーションを示す。

提案手法

  • 密なリトリーバを内積スコアリングと組み合わせ、各クエリに対して上位ドキュメントを選択するモデルアーキテクチャ。
  • リトリーバーの埋め込みは、入力 x 用のトランスフォーマー系エンコーダと z 用の別個のドキュメントエンコーダを介して学習され、f(x,z) = Embed_input(x) dot Embed_doc(z) となる。
  • 知識強化エンコーダは retrieved documents に条件付けて y を予測し、x と z の間でクロスアテンションを用いる。
  • 訓練は top-k retrieved documents を周辺化して p(y|x) を最適化する: p(y|x) = sum_z p(y|x,z) p(z|x)。
  • 事前学習は retrieved documents を用いたマスク言語モデリングでマスクトークンを予測する。
  • Open-QA のファインチューニングは top-k documents(top 5)を retrieved し、それらを周辺化して回答スパンまたはトークンを予測する。
  • 大規模コーパスに対応するため、非同期インデックス刷新を伴う Maximum Inner Product Search (MIPS) を用いてリトリーバルインデックスを最新に保つ。

実験結果

リサーチクエスチョン

  • RQ1Unspervised 信号で訓練された潜在的知識リトリーバは、知識集約的タスクの言語モデル事前学習を改善するか。
  • RQ2エンドツーエンドの RETRIEVAL-augmented 事前学習は、従来のリトリーバ基盤および生成基盤の方法を超えて Open-QA ベンチマークを改善するか。
  • RQ3取得したドキュメントの品質は下流の予測およびQA 精度にどのように影響するか。
  • RQ4事前学習時のリトリーバー導入を指針づける有効な帰納バイアス(例: 著名なスパンのマスキング)は何か。
  • RQ5MIPS ベースのリトリーバルは大規模事前学習へ統合した場合、スケーラブルかつ安定か。

主な発見

NameArchitecturesPre-trainingNQWQCT# params
BERT-Baseline (Lee et al., 2019)Sparse Retr. + TransformerBERT26.517.721.3110m
T5 (base) (Roberts et al., 2020)Transformer Seq2SeqT5 (Multitask)27.029.1-223m
T5 (large) (Roberts et al., 2020)Transformer Seq2SeqT5 (Multitask)29.832.2-738m
T5-11B (Roberts et al., 2020)Transformer Seq2SeqT5 (Multitask)34.537.4-11318m
DrQA (Chen et al., 2017)Sparse Retr. + DocReaderN/A-20.725.734m
HardEM (Min et al., 2019a)Sparse Retr. + TransformerBERT28.1--110m
GraphRetriever (Min et al., 2019b)GraphRetriever + TransformerBERT31.831.6-110m
PathRetriever (Asai et al., 2019)PathRetriever + TransformerMLM32.6--110m
ORQA (Lee et al., 2019)Dense Retr. + TransformerICT + BERT33.336.430.1330m
REALM (X=Wikipedia, Z=Wikipedia)Dense Retr. + TransformerREALM39.240.246.8330m
REALM (X=CC-News, Z=Wikipedia)Dense Retr. + TransformerREALM40.440.742.9330m
  • REALM は三つのベンチマークで従来のオープン QA 手法より 4-16 ポイントの絶対的改善を達成した。
  • REALM は最大の T5-11B モデルを上回り、サイズは 30 倍小さい。
  • エンコーダとリトリーバの両方が REALM 事前学習の恩恵を受け、最良の結果は共同最適化から得られた。
  • 顕著なスパンマスキングとヌルドキュメントの含有はリトリーバの有用性とモデル性能を改善する。
  • 非同期 MIPS インデックス刷新は安定した最適化とより良いリトリーバル品質をもたらす。
  • REALM は retrieved documents が予測にどのように影響するかを示すことで、解釈可能なリトリーバ挙動を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。