QUICK REVIEW

[論文レビュー] Generalization through Memorization: Nearest Neighbor Language Models

Urvashi Khandelwal, Omer Levy|arXiv (Cornell University)|Nov 1, 2019

Topic Modeling参考文献 28被引用数 56

ひとこと要約

KNN-LMs は事前学習済み言語モデルを k-最近傍データストアで拡張し、予測を補間することで追加の学習なしに最先端のパープレキシティを達成し、ドメイン適応とデータ効率的なスケーリングを可能にします。

ABSTRACT

We introduce $k$NN-LMs, which extend a pre-trained neural language model (LM) by linearly interpolating it with a $k$-nearest neighbors ($k$NN) model. The nearest neighbors are computed according to distance in the pre-trained LM embedding space, and can be drawn from any text collection, including the original LM training data. Applying this augmentation to a strong Wikitext-103 LM, with neighbors drawn from the original training set, our $k$NN-LM achieves a new state-of-the-art perplexity of 15.79 - a 2.9 point improvement with no additional training. We also show that this approach has implications for efficiently scaling up to larger training sets and allows for effective domain adaptation, by simply varying the nearest neighbor datastore, again without further training. Qualitatively, the model is particularly helpful in predicting rare patterns, such as factual knowledge. Together, these results strongly suggest that learning similarity between sequences of text is easier than predicting the next word, and that nearest neighbor search is an effective approach for language modeling in the long tail.

研究の動機と目的

テキスト文脈間の類似性を学習することが、次の単語を予測するよりも容易であるという仮説を動機づける。
再学習なしで次のトークン予測を改善するために、事前学習済み LM に k-nearest neighbors の拡張を提案する。
explicit memory of training contexts を用いることでパープレキシティが改善され、ドメイン適応とデータ効率的なスケーリングを可能にするかを経験的に評価する。

提案手法

訓練済み LM から文脈表現と次語ターゲットのデータストアを構築する。
テスト文脈でデータストアをクエリし、埋め込み空間の L2 距離を用いて k 最近傍を取得する。
取得した近傍から次語の p_kNN 分布を計算し、可変の lambda を用いて基盤 LM 分布と内插する。
64 バイトの量子化ベクトルを用いた高次元キーのスケーラブルな最近傍探索には FAISS を使用する。
検証データで内插パラメータ lambda を調整する。
datastore のサイズとドメインを変えて WikiText-103 と Books、テストデータで評価する。

実験結果

リサーチクエスチョン

RQ1追加の学習なしで、事前学習済み LM の文脈表現を kNN 検索を介して活用し、次のトークン予測を改善できるか。
RQ2データストアのサイズと内插重みがパープレキシティとドメイン適応性能にどのような影響を及ぼすか。
RQ3より大きなまたは異なるドメインのデータを、小さな LM を datastore を介して効果的に拡張できるか。
RQ4 explicit memory が長尾パターン（事実知識や固有名詞など）に対して、暗黙的パラメータのみよりも有効か。

主な発見

モデル	Dev Perplexity (↓)	Test Perplexity (↓)	# Trainable Params
Baevski & Auli (2019)	17.96	18.65	247M
+ kNN-LM	16.06	16.12	247M
+ Continuous Cache	15.81	15.79	247M

kNN-LM は追加の学習なしで Wikitext-103 における新しい最先端のパープレキシティ 15.79 を達成し、ベースモデルより 2.86 ポイント改善した。
訓練データをデータストアとして使用するとパープレキシティの利益が大きく、kNN と連続キャッシュを組み合わせると Wikitext-103 での結果はさらに 15.79 に改善される。
100M トークンのデータストアと 3B トークンのデータストアを用いたデータストア拡張は、同じモデルを 3B トークンで訓練するよりも優れており、データ効率的なスケーリングを示す。
ドメイン適応は効果的であり、Wiki-3B モデルに対して同 domain の Books データストアを追加すると Books のパープレキシティが 34.84 から 20.47 に低下し、ドメイン内訓練の性能に近づく。
より大きなデータストアに基づくデータの取得はパフォーマンスを単調に向上させ、ドメイン適応のための最適 lambda はデータストアサイズとともに増加する。
定性的分析は、長尾パターンや事実知識を明示的な memory によってより良く扱えることを示し、暗黙的パラメータのみに依存するのと比べて優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。