Skip to main content
QUICK REVIEW

[论文解读] A Teacher-Student Framework for Zero-Resource Neural Machine Translation

Yun Chen, Yang Liu|arXiv (Cornell University)|May 2, 2017
Natural Language Processing Techniques参考文献 29被引用 104
一句话总结

本论文引入一个师生框架,在没有平行数据的情况下,通过使用一个枢纽语言到目标语言的教师模型,来指导源-枢纽语语料的学习,从而在基于枢纽的基线之上提升零资源翻译质量。

ABSTRACT

While end-to-end neural machine translation (NMT) has made remarkable progress recently, it still suffers from the data scarcity problem for low-resource language pairs and domains. In this paper, we propose a method for zero-resource NMT by assuming that parallel sentences have close probabilities of generating a sentence in a third language. Based on this assumption, our method is able to train a source-to-target NMT model ("student") without parallel corpora available, guided by an existing pivot-to-target NMT model ("teacher") on a source-pivot parallel corpus. Experimental results show that the proposed method significantly improves over a baseline pivot-based model by +3.0 BLEU points across various language pairs.

研究动机与目标

  • 由于低资源语言对缺乏平行数据,动机是零资源 NMT。
  • 提出一个师生框架,使用枢纽语言到目标的教师来指导源到目标的学生模型。
  • 验证平行句子在生成第三语言句子时具有相似的概率的假设,从而实现知识迁移。
  • 在 Europarl 和 WMT 数据集上展示相对于基于枢纽的基线,翻译质量和解码效率的提升。

提出的方法

  • 假设平行句子在生成第三语言句子时的概率接近,以在没有 x–y 平行数据的情况下实现直接的源到目标学习。
  • 在 D_{z,y} 上训练一个固定的枢纽到目标教师模型,并通过句级 KL 散度(J_SENT)或词级 KL 散度(J_WORD)引导 D_{x,z} 上的学生模型。
  • 句级教学目标在 D_{x,z} 上最小化 KL(P(y|z;θ̂_{z→y}) || P(y|x;θ_{x→y}))。
  • 词级教学目标在词汇表中的每个 y 以及 y 的位置 j 上对 KL(P(y|z,y_<j;θ̂_{z→y}) || P(y|x,y_<j;θ_{x→y})) 求和最小化。
  • 通过将目标空间限制(如束搜索/模式)来近似梯度,以处理不可行的全空间 KL 优化。
  • 训练完成后,使用标准 NMT 解码 P(y|x;θ_{x→y}) 进行翻译。

实验结果

研究问题

  • RQ1一个枢纽到目标的 NMT 模型是否可以在没有 x–y 平行数据的情况下教会源到目标模型?
  • RQ2句级和词级教学方法是否能有效地将知识从教师转移给学生?
  • RQ3所提出的方法在 BLEU 和解码效率方面与基于枢纽的方法和多语言零资源方法相比有何差异?
  • RQ4教师-学生框架在 Europarl 和 WMT 数据集及多语言对上是否具有鲁棒性?
  • RQ5近似推断(k-best、模式、采样)对训练和翻译质量有什么影响?

主要发现

  • 词级教学结合采样在 Europarl 的 Es-Fr 上比基于枢纽的零资源基线高出最多 +3.29 BLEU,在 De-Fr 上高出 +3.24 BLEU。
  • 句级 beam 基的教学也优于基线,但训练时间更长。
  • 在 Europarl 中,句-beam 与词-采样均优于枢纽基线,且词-采样获得最佳 BLEU(Es-Fr:测试集 27.03;De-Fr:测试集 25.15,在某些设置)。
  • 在大规模 WMT Es-Fr 任务中,词-采样方法相对于枢纽和多对一基线取得显著提升(例如 Newstest2012 上相对于枢纽 +3.46 BLEU)。
  • 在零资源设置下,所提方法可以超越使用少量源-目标平行语料的似然基方法。
  • 支撑该方法的假设(P(y|x) 与 P(y|z) 在句级和词级上的接近性)通过在训练过程中下降的 KL 散度得到经验验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。