QUICK REVIEW

[论文解读] The Impact of Preprocessing on Arabic-English Statistical and Neural Machine Translation

Mai Oudah, Amjad Almahairi|arXiv (Cornell University)|Jun 27, 2019

Natural Language Processing Techniques参考文献 24被引用 28

一句话总结

本文研究了预处理——尤其是分词——对阿拉伯语-英语统计机器翻译（SMT）和神经机器翻译（NMT）的影响。比较了基于形态的（如宾夕法尼亚阿拉伯语语料库）和基于频率的（BPE）分词方法，发现即使词汇量较小，BPE也能显著提升SMT性能，且NMT对训练数据量极为敏感。一项关键贡献是基于长度的系统选择方法，通过结合SMT和NMT输出显著提升了翻译质量，在领域内数据上相比之前的工作提高了+4 BLEU分。

ABSTRACT

Neural networks have become the state-of-the-art approach for machine translation (MT) in many languages. While linguistically-motivated tokenization techniques were shown to have significant effects on the performance of statistical MT, it remains unclear if those techniques are well suited for neural MT. In this paper, we systematically compare neural and statistical MT models for Arabic-English translation on data preprecossed by various prominent tokenization schemes. Furthermore, we consider a range of data and vocabulary sizes and compare their effect on both approaches. Our empirical results show that the best choice of tokenization scheme is largely based on the type of model and the size of data. We also show that we can gain significant improvements using a system selection that combines the output from neural and statistical MT.

研究动机与目标

评估不同预处理技术（尤其是分词方案）对阿拉伯语-英语机器翻译在SMT和NMT中性能的影响。
通过学习曲线分析，研究训练数据量与分词选择之间的相互作用。
评估基于形态的（如ATB）和基于频率的（BPE）分词在提升翻译质量方面的有效性。
探索结合SMT和NMT输出的系统选择策略，以提高鲁棒性，尤其针对长句或复杂句子。
在领域内阿拉伯语-英语翻译基准上，显著超越先前的最先进结果。

提出的方法

本研究比较了多种预处理方案：原始分词、宾夕法尼亚阿拉伯语语料库（ATB）分词、连字符化（D3）和字节对编码（BPE）。
通过逐步增加训练数据量进行学习曲线实验，并基于D3方案对句子进行过滤，以确保不同分词类型下的输入长度一致。
对于NMT，使用预训练的多语言词嵌入表示阿拉伯语和英语，相比仅使用英语嵌入，性能提升了2 BLEU分。
系统选择基于输入句子长度实现，根据哪个输出与源输入长度更接近，选择SMT或NMT输出。
使用“最优系统选择”作为上限基准，为每个测试样本选择SMT或NMT中BLEU分数更高的输出。
在领域内（MT05）和领域外（MT12）测试集上进行实验，以评估泛化能力和鲁棒性。

实验结果

研究问题

RQ1不同分词方案——基于形态的（如ATB）和基于频率的（BPE）——如何影响阿拉伯语-英语翻译中SMT和NMT的性能？
RQ2训练数据量与分词方案选择在SMT和NMT中如何相互作用？
RQ3基于输入-输出长度对齐的系统选择在多大程度上能提升NMT和SMT的翻译质量？
RQ4通过基于长度的筛选结合SMT和NMT输出，是否能在领域内和领域外测试集上超越单一系统？
RQ5预训练的多语言词嵌入在阿拉伯语-英语翻译中对NMT性能有何影响？

主要发现

BPE显著提升了SMT性能，在仅20K小词汇量下也取得了优异结果，且在SMT中优于其他方案。
NMT性能对训练数据量极为敏感，尤其在长句子上性能明显下降。
在领域外测试数据（MT12）上，表现最佳的NMT模型（使用ATB分词）比表现最佳的SMT模型（使用ATB+BPE）高出1.5 BLEU分。
基于长度的系统选择显著提升了SMT和NMT的性能，尤其在领域外数据上提升明显，证明了混合MT系统的价值。
同时使用阿拉伯语和英语的预训练词嵌入，相比仅使用英语嵌入，使NMT性能提升了2 BLEU分。
所提出的系统在领域内MT05测试集上相比之前工作提高了+4 BLEU分，显著超越了先前结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。