QUICK REVIEW

[論文レビュー] REALM: Retrieval-Augmented Language Model Pre-Training

Kelvin Guu, Kenton Lee|arXiv (Cornell University)|Feb 10, 2020

Topic Modeling参考文献 38被引用数 513

ひとこと要約

REALM は大規模テキストコーパス上で学習されたニューラルリトリーバを用いた事前学習を追加し、端から端までの教師なし事前学習を可能にするとともに、オープンデメ QA の性能を改善します。従来のリトリーバ基盤・生成基盤の手法を三つの Open-QA ベンチマークで優れた性能を示しつつ、モデルサイズを適度に保ちます。

ABSTRACT

Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.

研究の動機と目的

潜在的な知識リトリーバを事前学習に統合して、世界知識をよりモジュラーに捕捉することを動機づける。
Unspervised MLM 信号で訓練するエンドツーエンドのリトリーバーと知識強化エンコーダを開発する。
オープンQAタスクの事前学習およびファインチューニング時に retrieval-then-predict を有効にする。
MIPS ベースのリトリーバルと非同期インデックス刷新によるスケーラビリティを実証する。
設計選択を導くための解釈可能なリトリーバー挙動とアブレーションを示す。

提案手法

密なリトリーバを内積スコアリングと組み合わせ、各クエリに対して上位ドキュメントを選択するモデルアーキテクチャ。
リトリーバーの埋め込みは、入力 x 用のトランスフォーマー系エンコーダと z 用の別個のドキュメントエンコーダを介して学習され、f(x,z) = Embed_input(x) dot Embed_doc(z) となる。
知識強化エンコーダは retrieved documents に条件付けて y を予測し、x と z の間でクロスアテンションを用いる。
訓練は top-k retrieved documents を周辺化して p(y|x) を最適化する: p(y|x) = sum_z p(y|x,z) p(z|x)。
事前学習は retrieved documents を用いたマスク言語モデリングでマスクトークンを予測する。
Open-QA のファインチューニングは top-k documents（top 5）を retrieved し、それらを周辺化して回答スパンまたはトークンを予測する。
大規模コーパスに対応するため、非同期インデックス刷新を伴う Maximum Inner Product Search (MIPS) を用いてリトリーバルインデックスを最新に保つ。

実験結果

リサーチクエスチョン

RQ1Unspervised 信号で訓練された潜在的知識リトリーバは、知識集約的タスクの言語モデル事前学習を改善するか。
RQ2エンドツーエンドの RETRIEVAL-augmented 事前学習は、従来のリトリーバ基盤および生成基盤の方法を超えて Open-QA ベンチマークを改善するか。
RQ3取得したドキュメントの品質は下流の予測およびQA 精度にどのように影響するか。
RQ4事前学習時のリトリーバー導入を指針づける有効な帰納バイアス（例: 著名なスパンのマスキング）は何か。
RQ5MIPS ベースのリトリーバルは大規模事前学習へ統合した場合、スケーラブルかつ安定か。

主な発見

Name	Architectures	Pre-training	NQ	WQ	CT	# params
BERT-Baseline (Lee et al., 2019)	Sparse Retr. + Transformer	BERT	26.5	17.7	21.3	110m
T5 (base) (Roberts et al., 2020)	Transformer Seq2Seq	T5 (Multitask)	27.0	29.1	-	223m
T5 (large) (Roberts et al., 2020)	Transformer Seq2Seq	T5 (Multitask)	29.8	32.2	-	738m
T5-11B (Roberts et al., 2020)	Transformer Seq2Seq	T5 (Multitask)	34.5	37.4	-	11318m
DrQA (Chen et al., 2017)	Sparse Retr. + DocReader	N/A	-	20.7	25.7	34m
HardEM (Min et al., 2019a)	Sparse Retr. + Transformer	BERT	28.1	-	-	110m
GraphRetriever (Min et al., 2019b)	GraphRetriever + Transformer	BERT	31.8	31.6	-	110m
PathRetriever (Asai et al., 2019)	PathRetriever + Transformer	MLM	32.6	-	-	110m
ORQA (Lee et al., 2019)	Dense Retr. + Transformer	ICT + BERT	33.3	36.4	30.1	330m
REALM (X=Wikipedia, Z=Wikipedia)	Dense Retr. + Transformer	REALM	39.2	40.2	46.8	330m
REALM (X=CC-News, Z=Wikipedia)	Dense Retr. + Transformer	REALM	40.4	40.7	42.9	330m

REALM は三つのベンチマークで従来のオープン QA 手法より 4-16 ポイントの絶対的改善を達成した。
REALM は最大の T5-11B モデルを上回り、サイズは 30 倍小さい。
エンコーダとリトリーバの両方が REALM 事前学習の恩恵を受け、最良の結果は共同最適化から得られた。
顕著なスパンマスキングとヌルドキュメントの含有はリトリーバの有用性とモデル性能を改善する。
非同期 MIPS インデックス刷新は安定した最適化とより良いリトリーバル品質をもたらす。
REALM は retrieved documents が予測にどのように影響するかを示すことで、解釈可能なリトリーバ挙動を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。