Skip to main content
QUICK REVIEW

[论文解读] Multilingual Neural Machine Translation with Knowledge Distillation

Xu Tan, Yi Ren|arXiv (Cornell University)|Feb 27, 2019
Natural Language Processing Techniques被引用 129
一句话总结

本文提出一个多语言NMT框架,利用单独训练的语言对模型的知识蒸馏来训练一个单一的多语言模型,在参数显著更少的情况下实现接近或超过单独模型的准确性。

ABSTRACT

Multilingual machine translation, which translates multiple languages with a single model, has attracted much attention due to its efficiency of offline training and online serving. However, traditional multilingual translation usually yields inferior accuracy compared with the counterpart using individual models for each language pair, due to language diversity and model capacity limitations. In this paper, we propose a distillation-based approach to boost the accuracy of multilingual machine translation. Specifically, individual models are first trained and regarded as teachers, and then the multilingual model is trained to fit the training data and match the outputs of individual models simultaneously through knowledge distillation. Experiments on IWSLT, WMT and Ted talk translation datasets demonstrate the effectiveness of our method. Particularly, we show that one model is enough to handle multiple languages (up to 44 languages in our experiment), with comparable or even better accuracy than individual models.

研究动机与目标

  • 推动多语言NMT在保持跨多语言对高准确性的同时,降低训练和服务成本。
  • 利用语言对教师模型的知识蒸馏来训练一个单一的多语言学生模型。
  • 证明在多样化数据集(IWSLT、WMT、Ted talk)上,单一多语言模型可以达到与单独模型相当或更好的准确性。
  • 探索选择性蒸馏和Top-K蒸馏,以管理训练效率和内存使用。

提出的方法

  • 将各语言对的独立模型训练为教师模型。
  • 训练一个单一的多语言学生模型,使其在所有教师模型上同时最小化真实标签的NLL和蒸馏损失。
  • 使用选择性蒸馏,当学生超过教师一个阈值时对该语言对关闭蒸馏。
  • 可选地使用Top-K蒸馏,通过每个标记只蒸馏前K个教师概率来降低内存。
  • 在训练过程中,逐步对比学生和教师的准确性并相应调整蒸馏的使用。

实验结果

研究问题

  • RQ1一个多语言NMT模型是否能够通过来自这些模型的知识蒸馏达到语言对专用模型的准确性?
  • RQ2选择性蒸馏是否有助于在减少弱教师负面影响的同时维持或提升性能?
  • RQ3在大规模多语言环境中使用Top-K蒸馏时,内存和性能的权衡是什么?

主要发现

  • 多语言基线通常不如单独模型,但所提出的蒸馏方法在许多语言对上缩小甚至超过差距。
  • 多重蒸馏在大多数语言上实现与单独模型相似或更好的BLEU,且在Ted Talk设置中仅具有1/44的总参数。
  • 与始终从所有教师蒸馏相比,选择性蒸馏在大多数语言上提升了BLEU。
  • Top-K蒸馏在降低内存使用的同时,性能达到与完整分布蒸馏相当或更好。
  • 在多语言蒸馏之后,反向蒸馏可以提升某些单独语言模型,尽管结果因语言而异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。