Skip to main content
QUICK REVIEW

[论文解读] A Focus on Neural Machine Translation for African Languages

Laura Martinus, Jade Abbott|arXiv (Cornell University)|Jun 11, 2019
Natural Language Processing Techniques参考文献 19被引用 37
一句话总结

本论文使用 ConvS2S 和 Transformer NMT 架构将英语翻译成五种南非官方语言,发布数据/代码并进行基准测试,以解决非洲机器翻译中的可重复性和基准问题。

ABSTRACT

African languages are numerous, complex and low-resourced. The datasets required for machine translation are difficult to discover, and existing research is hard to reproduce. Minimal attention has been given to machine translation for African languages so there is scant research regarding the problems that arise when using machine translation techniques. To begin addressing these problems, we trained models to translate English to five of the official South African languages (Afrikaans, isiZulu, Northern Sotho, Setswana, Xitsonga), making use of modern neural machine translation techniques. The results obtained show the promise of using neural machine translation techniques for African languages. By providing reproducible publicly-available data, code and results, this research aims to provide a starting point for other researchers in African machine translation to compare to and build upon.

研究动机与目标

  • 识别阻碍非洲语言机器翻译的关键问题(资源匮乏、可发现性、可重复性、基准测试)。
  • 在英语到五种南部非洲语言上训练并评估最先进的神经机器翻译模型(ConvS2S 和 Transformer)。
  • 提供公开的数据、代码和结果,以为未来工作建立基线和基准。

提出的方法

  • 使用公开的 Autshumato 平行语料库,按句子对齐并清理重复项以防止数据泄漏。
  • 在每种语言上使用默认的 Fairseq 设置训练 ConvS2S(Word 和 Best BPE)以及 Transformer 模型,分别使用 Tensor2Tensor 设置。
  • 在解码阶段应用束搜索(ConvS2S 的束宽为 5,Transformer 为 4)。
  • 尝试基于单词的分词和字节对编码(BPE)分词,包括消融研究以为每种语言选择最优的 BPE 标记数。
  • 使用 BLEU 分数进行评估,并进行定性分析,包括注意力可视化和回译。

实验结果

研究问题

  • RQ1使用 ConvS2S 和 Transformer 架构,英语到五种南非语言可以达到的 BLEU 分数是多少?
  • RQ2子词(BPE)分词是否比基于单词的分词在低资源非洲语言上提升翻译质量?
  • RQ3数据规模和语言形态(黏合型与非黏合型)在此设定中如何影响 NMT 性能?
  • RQ4公开发布的数据/代码是否能为未来的非洲 MT 研究建立可重复的基线和基准?

主要发现

ModelAfrikaansisiZuluN. SothoSetswanaXitsonga
ConvS2S (Word)16.170.287.4124.1836.96
ConvS2S (Best BPE)25.04 (4k)1.79 (4k)12.18 (4k)26.36 (40k)37.45 (20k)
Transformer35.26 (4k)3.33 (4k)24.16 (4k)28.07 (40k)49.74 (20k)
  • Transformer 在所有语言中普遍优于 ConvS2S。
  • BPE 分词一贯优于基于单词的分词。
  • 语言表现与数据集大小和形态复杂性相关;isiZulu 和 Northern Sotho 由于数据小且质量较低而表现最差,而 Xitsonga 和 Setswana 由于数据更多表现更好。
  • Afrikaans(非黏合型)在并行数据较少的情况下取得了相当的结果。
  • Transformer 的 isiZulu 最大 BLEU 为 3.33,表明数据质量/规模问题严重。
  • 公开数据/代码使可重复性成为可能,并为这五种语言创建了一个起始基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。