Skip to main content
QUICK REVIEW

[论文解读] Simple and Scalable Nearest Neighbor Machine Translation

Yuhan Dai, Zhirui Zhang|arXiv (Cornell University)|Feb 23, 2023
Natural Language Processing Techniques被引用 9
一句话总结

SK-MT 构建一个动态的、句子级的小型数据存储和一个距离感知适配器,以加速 kNN-MT 并减少存储,同时保持翻译质量。

ABSTRACT

$k$NN-MT is a straightforward yet powerful approach for fast domain adaptation, which directly plugs pre-trained neural machine translation (NMT) models with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, $k$NN-MT is burdened with massive storage requirements and high computational complexity since it conducts nearest neighbor searches over the entire reference corpus. In this paper, we propose a simple and scalable nearest neighbor machine translation framework to drastically promote the decoding and storage efficiency of $k$NN-based models while maintaining the translation performance. To this end, we dynamically construct an extremely small datastore for each input via sentence-level retrieval to avoid searching the entire datastore in vanilla $k$NN-MT, based on which we further introduce a distance-aware adapter to adaptively incorporate the $k$NN retrieval results into the pre-trained NMT models. Experiments on machine translation in two general settings, static domain adaptation and online learning, demonstrate that our proposed approach not only achieves almost 90% speed as the NMT model without performance degradation, but also significantly reduces the storage requirements of $k$NN-MT.

研究动机与目标

  • 在不进行完整模型重新训练的情况下,推动神经机器翻译的快速且实用的领域自适应。
  • 通过避免对完整数据存储进行搜索来减少 kNN-MT 的存储和解码成本。
  • 利用句子级检索为每个输入构建极小、动态的数据存储。
  • 引入一个距离感知适配器,使 kNN 检索与 NMT 模型自适应融合。
  • 展示在静态领域自适应和在线学习场景中的有效性。

提出的方法

  • 在训练语料上使用 BM25 检索每个输入的前 64 条双语句子。
  • 用相似度分数对检索到的句子进行排序,并保留前 m 对句子以形成该输入的一个微小数据存储。
  • 通过在所选句子对上运行预训练的 NMT 模型来获取用于解码的 (key, value) 对,从而构建逐输入的数据存储。
  • 基于与当前上下文的欧氏距离计算检索分布 p_kNN,并使用一个插值系数将其与 NMT 分布进行结合。
  • 通过设定 lambda = ReLU(1 - d0 / tau)使插值系数 lambda 自适应,其中 d0 是最高距离,tau 是温度参数。
  • 可选地,学习或调优超参数(k、m、tau),并比较 SK-MT 的变体(SK-MT1,m=2, k=1;SK-MT2,m=16, k=2)。

实验结果

研究问题

  • RQ1一个动态构建的、极小的逐输入数据存储是否能维持或提升相较于使用完整数据存储的 kNN-MT 性能?
  • RQ2距离感知、自适应融合的 kNN 检索与 NMT 模型是否能在领域自适应和在线学习中实现稳健的性能?
  • RQ3在现实解码设置下,SK-MT 相对于传统的 kNN-MT 和快速变体的提速和存储收益是多少?
  • RQ4句子级检索对低频词或域外词的翻译质量有何影响?

主要发现

  • SK-MT 的解码速度约为基础 NMT 模型的 90%,在速度和存储效率方面优于标准的 kNN-MT。
  • 从每个输入的前 m 对句子对构建的微小动态数据存储在显著减少存储量从几十 GB 到 MB 的同时保持性能。
  • SK-MT2(m=16, k=2)达到与 AK-MT 相当或更好的 BLEU/ChrF 分数,并在多领域 IT、Medical、Koran 与 Law 数据集上超过 FK-MT、EK-MT、CK-MT 基线。
  • 自适应 lambda 策略通过在距离较大时避免噪声 kNN 贡献、在邻居相关时利用 kNN 来提高翻译质量。
  • 在带有人工反馈的在线学习场景中,SK-MT 变体优于 kNN-MT,并且与 KoK 相竞争,展现出对新修正的更快适应。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。