QUICK REVIEW

[論文レビュー] Improving language models by retrieving from trillions of tokens

Sebastian Borgeaud, Arthur Mensch|arXiv (Cornell University)|Dec 8, 2021

Topic Modeling被引用数 296

ひとこと要約

Retro は trillion-token データベースからの検索機構を自動回帰言語モデルに追加し、はるか少ないパラメータ数で GPT-3/Jurassic-1-like な性能を達成し、知識集約型の下流タスクを実現します。

ABSTRACT

We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a $2$ trillion token database, our Retrieval-Enhanced Transformer (RETRO) obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite using 25$ imes$ fewer parameters. After fine-tuning, RETRO performance translates to downstream knowledge-intensive tasks such as question answering. RETRO combines a frozen Bert retriever, a differentiable encoder and a chunked cross-attention mechanism to predict tokens based on an order of magnitude more data than what is typically consumed during training. We typically train RETRO from scratch, yet can also rapidly RETROfit pre-trained transformers with retrieval and still achieve good performance. Our work opens up new avenues for improving language models through explicit memory at unprecedented scale.

研究の動機と目的

リトリーバルを介して巨大な外部メモリを活用することにより、ますます大きなモデルへの依存を減らす動機付け。
retrieval を trillions のトークンへスケールさせる検索機能を備えた autoregressive アーキテクチャの開発。
検索がモデルサイズと下流タスクの両方で一貫した利得をもたらすことを示す。
Retro を事前学習済みモデルへ Retro-fitted する際、最小限の追加計算で可能であることを示す。
検索システムが訓練データへアクセスできる場合の評価リークの懸念に対処する。

提案手法

凍結された BERT 埋め込みをキーとして、テキストチャンクを値とするテキストチャンクのキー値データベースを構築する。
入力シーケンスをチャンクに分割し、それぞれをデータベースからのk近傍にある取得チャンクで拡張する。
チャンク化クロスアテンション機構（Cca）を備えたエンコーダ-デコーダーTransformerを用いて取得データを統合する。
retriever トレーニングなしでスケール可能な retrieval を可能にするため、凍結されたBERTベースのリトリーバを使用する。
因果関係を保つため、前のチャンクからの retrieved neighbours に基づく自己回帰目的で訓練する。
大規模多言語データ（MassiveText）とテストデータセット（C4、Wikitext103、Pile）で評価し、評価チャンクのオーバーラップによるリーク効果を分析する。

実験結果

リサーチクエスチョン

RQ1trillions-token データベースからの retrieving は、異なるモデルサイズにおいて言語モデルの性能にどう影響するか？
RQ2検索強化モデルは、標準ベンチマークでより少ないパラメータにもかかわらず GPT-3 や Jurassic-1 などのベースラインに匹敵または上回ることができるか？
RQ3データベースサイズの増加や取得近傍の数の増加は一貫した改善をもたらすか、そしてその限界は何か？
RQ4Retro は事前学習済みトランスフォーマーへ最小限の追加計算で効果的に Retro-fit できるか？
RQ5評価データのリークが検索強化モデルの性能にどのように影響するか？

主な発見

2 trillion token データベースを用いた Retro は、25倍少ないパラメータであるにもかかわらず Pile で GPT-3 および Jurassic-1 と同等の性能を提供する。
取得による性能向上は、モデルサイズが 150M から 7B パラメータへスケールしても一定である。
取得データベースサイズと取得近傍数を増やすと性能は向上するが、非常に大きな近傍集合が品質を損なう場合がある点まで改善する。
訓練後、Wikitext103 および Pile で最先端の結果を達成し、質問応答などの競争力のある下流タスクにファインチューニングできる。
評価リーク対策に関する手法は、改善が明示的な近傍コピーと一般的な知識抽出の両方から来ることを示し、より大きなデータベースとより多くの近傍は大規模モデルでの利得を拡大する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。