Skip to main content
QUICK REVIEW

[论文解读] Generalization through Memorization: Nearest Neighbor Language Models

Urvashi Khandelwal, Omer Levy|arXiv (Cornell University)|Nov 1, 2019
Topic Modeling参考文献 28被引用 56
一句话总结

KNN-LMs 在预训练语言模型上增量一个最近邻数据存储,以插值预测,在无需额外训练的情况下达到最先进困惑度并实现领域自适应和数据高效扩展。

ABSTRACT

We introduce $k$NN-LMs, which extend a pre-trained neural language model (LM) by linearly interpolating it with a $k$-nearest neighbors ($k$NN) model. The nearest neighbors are computed according to distance in the pre-trained LM embedding space, and can be drawn from any text collection, including the original LM training data. Applying this augmentation to a strong Wikitext-103 LM, with neighbors drawn from the original training set, our $k$NN-LM achieves a new state-of-the-art perplexity of 15.79 - a 2.9 point improvement with no additional training. We also show that this approach has implications for efficiently scaling up to larger training sets and allows for effective domain adaptation, by simply varying the nearest neighbor datastore, again without further training. Qualitatively, the model is particularly helpful in predicting rare patterns, such as factual knowledge. Together, these results strongly suggest that learning similarity between sequences of text is easier than predicting the next word, and that nearest neighbor search is an effective approach for language modeling in the long tail.

研究动机与目标

  • 让假设学习文本上下文之间的相似性比预测下一个词更容易。
  • 提出对预训练语言模型的 k 最近邻 augmentation,以在无需重新训练的情况下改进下一个词的预测。
  • 在实证上评估是否培训上下文的显式记忆能否改善困惑度并实现领域自适应与数据高效扩展。

提出的方法

  • 从经过训练的 LM 构造一个上下文表示和下一个单词目标的数据存储。
  • 用测试上下文对数据存储进行查询,使用嵌入空间的 L2 距离检索最近的 k 个邻居。
  • 从检索到的邻居中计算对下一个词的 p_kNN 分布,并使用可调参数 lambda 与基础 LM 分布进行插值。
  • 使用 FAISS 对高维键进行可扩展的最近邻搜索,向量为 64 字节量化向量。
  • 在验证数据上调节插值参数 lambda。
  • 在 WikiText-103 和 Books 上评估,并在不同数据存储大小和领域的测试数据上进行评估。

实验结果

研究问题

  • RQ1是否可以通过 kNN 检索利用预训练 LM 的上下文表示,在无需额外训练的情况下改进下一个词预测?
  • RQ2数据存储的大小和插值权重如何影响困惑度和领域自适应性能?
  • RQ3是否可以通过数据存储使用来自更大或不同领域的数据来有效地增强一个较小的 LM?
  • RQ4对训练实例的显式记忆是否在处理如事实知识或专有名词等长尾模式时更有帮助?

主要发现

  • 一个 kNN-LM 在无需额外训练的情况下,在 WikiText-103 上达到新的最先进困惑度 15.79,相比基线模型提升 2.86 点。
  • 将训练数据作为数据存储可带来显著的困惑度提升,并将 kNN 与连续缓存结合进一步将 WikiText-103 的结果提升到 15.79。
  • 使用 1 亿令牌的 datastore 和 3B 令牌 datastore 的数据存储,性能可超越在相同模型上用 3B 令牌进行训练,显示数据高效扩展。
  • 领域自适应效果显著:向 Wiki-3B 模型中添加同域 Books 数据存储后,Books 的困惑度从 34.84 降至 20.47,接近同域训练性能。
  • 从更大数据或数据存储支持的数据检索对性能有单调提升,且域自适应的最佳 lambda 会随数据存储大小增加而增加。
  • 定性分析显示 kNN-LM 通过显式记忆在处理长尾模式和事实知识方面比仅依赖隐式参数更具优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。