QUICK REVIEW

[论文解读] Neural machine translation for low-resource languages

Robert Östling, Jörg Tiedemann|arXiv (Cornell University)|Aug 18, 2017

Natural Language Processing Techniques参考文献 1被引用 30

一句话总结

该论文提出了一种针对低资源语言的新型神经机器翻译（NMT）模型，该模型在生成目标翻译时逐个标记进行，并预测插入位置，通过字符级编码和词对齐来提高在极少数据下的鲁棒性。该模型仅使用70,000个训练词符就在低资源测试集上取得了9%至17%的BLEU分数——在标准NMT完全失效的情况下——表明在数据稀缺环境下相比基线NMT有显著改进。

ABSTRACT

Neural machine translation (NMT) approaches have improved the state of the art in many machine translation settings over the last couple of years, but they require large amounts of training data to produce sensible output. We demonstrate that NMT can be used for low-resource languages as well, by introducing more local dependencies and using word alignments to learn sentence reordering during translation. In addition to our novel model, we also present an empirical evaluation of low-resource phrase-based statistical machine translation (SMT) and NMT to investigate the lower limits of the respective technologies. We find that while SMT remains the best option for low-resource settings, our method can produce acceptable translations with only 70000 tokens of training data, a level where the baseline NMT system fails completely.

研究动机与目标

探究在仅使用极少并行训练数据的低资源环境下神经机器翻译的可行性。
解决标准NMT模型在极小并行语料库（例如约70,000个词符）上训练时失败的问题。
通过引入局部上下文建模与动态重排机制，在数据稀疏条件下提升翻译的准确性和流畅性。
通过实证比较低资源场景下的短语基于SMT与NMT，识别性能极限。

提出的方法

模型使用双向LSTM将每个源端标记编码为字符级嵌入，实现开放词汇表处理。
通过在编码后的源端标记上应用第二个双向LSTM，生成句子级别的表示。
目标标记通过字符级LSTM解码器逐个生成，其条件依赖于目标状态向量。
目标状态向量结合了编码后的源端位置和前一个目标标记的嵌入。
前馈网络利用目标序列隐藏状态，预测每个生成的目标标记在部分假设中的插入位置。
efmaral对齐工具提供的词对齐为重排机制提供监督，尤其在低资源设置下至关重要。

实验结果

研究问题

RQ1能否在仅使用70,000对并行句子的条件下实现有效的神经机器翻译，而这一设置下标准NMT完全失效？
RQ2在低资源环境下，所提出的逐标记生成与动态重排机制相较于标准NMT和短语基于SMT表现如何？
RQ3当训练数据极度有限时，词对齐能在多大程度上提升翻译质量？
RQ4即使流畅性略有下降，该模型在数据稀疏条件下是否仍能保持比标准NMT更好的翻译准确性？
RQ5在低资源语言中，可接受的神经机器翻译性能的训练数据量下限是多少？

主要发现

所提出的模型在仅使用70,000个训练词符的情况下，于Watchtower和Bible测试集上实现了9%至17%的BLEU分数，而标准NMT在此设置下完全无法生成有意义输出。
短语基于SMT在低资源环境下仍占优势，但所提出的NMT模型显著缩小了与标准NMT的性能差距。
在Watchtower测试集上，当使用Watchtower数据训练西班牙语-英语翻译时，该模型实现了17.0%的BLEU分数，优于标准NMT基线（3.0%）和HNMT（3.0%）。
在Bible数据上进行德语-英语翻译时，该模型在使用20%的Bible数据训练下取得10.2的BLEU分数，而SMT为7.9，标准NMT为5.5。
该模型采用的字符级编码与重排机制使其在数据稀疏环境下比标准NMT具有更强的泛化能力，更好地保留了翻译准确性。
尽管使用贪婪解码，该模型性能仍具竞争力，表明若计算资源不受限，采用束搜索（beam search）可进一步提升结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。