[论文解读] Investigating Backtranslation in Neural Machine Translation
该论文系统性评估回译(合成)数据单独使用或与真实数据结合对德语→英语NMT性能的影响。研究发现合成数据在质量上可接近真实数据,混合数据通常能获得最佳结果,并存在一个临界点,即过多的合成数据会降低性能。
A prerequisite for training corpus-based machine translation (MT) systems -- either Statistical MT (SMT) or Neural MT (NMT) -- is the availability of high-quality parallel data. This is arguably more important today than ever before, as NMT has been shown in many studies to outperform SMT, but mostly when large parallel corpora are available; in cases where data is limited, SMT can still outperform NMT. Recently researchers have shown that back-translating monolingual data can be used to create synthetic parallel corpora, which in turn can be used in combination with authentic parallel data to train a high-quality NMT system. Given that large collections of new parallel text become available only quite rarely, backtranslation has become the norm when building state-of-the-art NMT systems, especially in resource-poor scenarios. However, we assert that there are many unknown factors regarding the actual effects of back-translated data on the translation capabilities of an NMT model. Accordingly, in this work we investigate how using back-translated data as a training corpus -- both as a separate standalone dataset as well as combined with human-generated parallel data -- affects the performance of an NMT model. We use incrementally larger amounts of back-translated data to train a range of NMT systems for German-to-English, and analyse the resulting translation performance.
研究动机与目标
- 评估回译数据对NMT性能在不同数据规模上的影响
提出的方法
- 使用 OpenNMT-py 在 WMT 2015 德语→英语数据上训练带注意力的两层 LSTM NMT 模型
- 通过用初始 NMT 模型把英语→德语进行回译,创建合成数据
- 使用 BLEU、TER、METEOR 和 CHRF1 评估仅真实数据、仅合成数据和混合数据集
- 逐步改变真实数据与合成数据的规模以观察性能趋势
- 使用固定基线配置以隔离回译数据的影响
实验结果
研究问题
- RQ1增加回译数据量在使用真实数据时对 NMT 质量有何影响?
- RQ2仅有合成数据能否达到与真实数据相竞争的 NMT 性能?
- RQ3混合训练中真实数据与回译数据的最佳平衡点在哪里?
- RQ4是否存在一个临界点,增加更多的合成数据会损害混合模型的性能?
主要发现
- 随着真实数据增加,NMT 模型性能提升,达到 3M 真实句子时达到峰值(BLEU 0.2446),在 3.5M 时略有下降
- 仅合成数据的模型可以接近真实数据的性能,达到峰值 BLEU 0.2363,使用 3.5M 的合成句子
- 混合模型(1M 真实数据+变化的合成数据)在小到中等数据规模通常优于仅真实数据的基线
- 混合数据中合成对真实的 ratio 高达 2:1 时有提升,但超过该比例后收益趋于稳定甚至下降(例如 3.5M 混合 BLEU 0.2442 对比 3M 混合 BLEU 0.2442)
- 在资源匮乏的设定中,回译仍然有益,可以用大量合成语料启动 NMT 系统
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。