[论文解读] Soft Contextual Data Augmentation for Neural Machine Translation
引入面向神经机器翻译的软上下文数据增强,通过用一个基于词汇表的软分布替换随机选中的一个词,该分布由预训练语言模型计算,在多个翻译任务中提升BLEU。
While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. In this paper, we present a novel data augmentation method for neural machine translation. Different from previous augmentation methods that randomly drop, swap or replace words with other words in a sentence, we softly augment a randomly chosen word in a sentence by its contextual mixture of multiple related words. More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. Since the weights of those words depend on the contextual information of the word to be replaced, the newly generated sentences capture much richer information than previous augmentation methods. Experimental results on both small scale and large scale machine translation datasets demonstrate the superiority of our method over strong baselines.
研究动机与目标
- 为神经机器翻译激励数据增强并解决离散词替换的局限性。
- 提出一种基于分布的软增强,融入上下文信息。
- 利用预训练语言模型推导上下文感知的词分布。
- 在多语言对和不同数据集规模上评估以展示有效性。
提出的方法
- 用一个软词替换一个随机选择的词,即对整个词汇表的概率分布。
- 从条件于前文上下文的预训练语言模型计算软词P(w)。
- 将软词嵌入为词汇嵌入的期望:e_w = P(w)E。
- 在训练时以概率γ应用增强,使用软表示代替one-hot令牌。
- 训练后保持语言模型参数固定;与NMT Transformer架构整合。
- 与基线比较,包括随机置换、 dropout、空白令牌,以及基于 unigram 的平滑。
实验结果
研究问题
- RQ1软上下文增强是否在多个语言对上超过强基线提升翻译质量?
- RQ2置换概率γ如何影响增强的性能与鲁棒性?
- RQ3该方法是否在小规模和大规模MT数据集上都有效?
- RQ4软增强与离散增强以及基于采样的上下文增强相比如何?
主要发现
- 在四个翻译任务中,持续地相对于强 Transformer 基线取得 BLEU 提升。
- 在 WMT 2014 En→De 上,该方法超出基线系统 +1.3 BLEU,达到 29.70 BLEU。
- 软增强在所有任务中均优于离散增强方法。
- 在一系列 γ 值下性能保持鲁棒,De→En 在 γ ≈ 0.15 时结果最强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。