QUICK REVIEW

[论文解读] Understanding Back-Translation at Scale

Sergey Edunov, Myle Ott|arXiv (Cornell University)|Aug 28, 2018

Natural Language Processing Techniques参考文献 37被引用 111

一句话总结

这篇论文分析大规模神经机器翻译中的反向翻译，显示采样或加入噪声的束生成的合成源比束/贪心 MAP 输出提供更强的训练信号，并在 WMT 基准测试中使用公开数据和大型单语语料库取得了最先进的结果。

ABSTRACT

An effective method to improve neural machine translation with monolingual data is to augment the parallel training corpus with back-translations of target language sentences. This work broadens the understanding of back-translation and investigates a number of methods to generate synthetic source sentences. We find that in all but resource poor settings back-translations obtained via sampling or noised beam outputs are most effective. Our analysis shows that sampling or noisy synthetic data gives a much stronger training signal than data generated by beam or greedy search. We also compare how synthetic data compares to genuine bitext and study various domain effects. Finally, we scale to hundreds of millions of monolingual sentences and achieve a new state of the art of 35 BLEU on the WMT'14 English-German test set.

研究动机与目标

评估不同生成合成源句子的方法如何影响神经机器翻译中的反向翻译。
量化来自各种合成数据生成策略的训练信号和学习动力学。
评估领域效应并将合成数据与真实平行文本在高资源和低资源设置中进行比较。
将反向翻译扩展到数亿级别的单语句子，并在公开数据上进行基准测试。

提出的方法

使用真实平行文本并以前向方向训练一个基于 Transformer 的 NMT 模型（Big Transformer），并用用于反向翻译的合成源句子进行增强。
比较合成源生成方法：贪心、束搜索（束大小为 5）、不受限采样、受限采样（Top-k，k=10），以及加入噪声的束搜索。
在训练中以不同数量注入合成数据（例如多达数千万对句子对），并在训练过程中调整平行文本上采样。
通过对合成数据与平行文本数据的交叉熵困惑度来衡量训练信号，并分析训练动力学。
通过对比单语新闻数据 BT 数据与真实平行文本来评估领域效应。
将实验扩展到大型单语语料库（高达 226M 句子），并执行跨数据集基准测试（WMT’14 English-German、WMT’14 English-French、WMT’18 English-German）。

实验结果

研究问题

RQ1生成合成源的方法（采样 vs 束/贪心）是否显著影响 NMT 性能？
RQ2合成数据是否提供比真实平行文本更强的训练信号，在何种资源条件下最为显著？
RQ3用于反向翻译的单语数据领域如何影响在领域内和混合域测试集上的性能？
RQ4借助大规模单语数据的反向翻译能否达到或接近使用真实平行文本获得的性能提升？
RQ5平行文本与合成数据的尺度和上采样如何影响最终模型准确性？

主要发现

采样和带噪束生成在多个英语-德语测试集上持续领先基于最大概率的方法（贪心/束）约 0.8–1.1 BLEU。
通过采样或加入噪声生成的合成数据提供比束或贪心搜索数据更强的训练信号，表现为更高的端模型 BLEU 与困惑度模式。
在某些情况下，合成数据可以匹配真实平行文本提供的增益的很大一部分（高达 83%），尤其当域对齐时（BT-news 在 newstest2012 上接近 BT-bitext）。
在 WMT’14 English–German 上，使用采样与 226M 单语句子进行反向翻译，使用仅公开基准数据实现了新的 state-of-the-art 35 BLEU（tokenized）；在 WMT’14 English–French，报告 45.6 BLEU（tokenized）。
将多个 BT 模型进行集成并过滤源副本，对 WMT’18 English–German 结果贡献显著改善，超出基线。
总体而言，带采样/有噪声输出的 BT 构成一种强健的数据增强策略，具有良好的扩展性，并可与高质量非基准数据竞争。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。