[论文解读] Towards Neural Phrase-based Machine Translation
本文提出神经短语级机器翻译(NPMT),一种序列到序列模型,通过睡眠-觉醒网络(SWAN)和一种新颖的软局部重排层,显式建模目标语言中的短语结构,以放松单调对齐约束。NPMT 在 IWSLT 2014 和 IWSLT 2015 翻译任务中取得了最先进(SOTA)的 BLEU 分数,且未使用注意力机制,证明了短语级建模可提升翻译质量,并实现线性时间解码。
In this paper, we present Neural Phrase-based Machine Translation (NPMT). Our method explicitly models the phrase structures in output sequences using Sleep-WAke Networks (SWAN), a recently proposed segmentation-based sequence modeling method. To mitigate the monotonic alignment requirement of SWAN, we introduce a new layer to perform (soft) local reordering of input sequences. Different from existing neural machine translation (NMT) approaches, NPMT does not use attention-based decoding mechanisms. Instead, it directly outputs phrases in a sequential order and can decode in linear time. Our experiments show that NPMT achieves superior performances on IWSLT 2014 German-English/English-German and IWSLT 2015 English-Vietnamese machine translation tasks compared with strong NMT baselines. We also observe that our method produces meaningful phrases in output languages.
研究动机与目标
- 开发一种显式建模目标语言短语结构的神经机器翻译系统,受短语基于统计机器翻译(SMT)成功启发。
- 通过引入一种软局部重排层,缓解 SWAN 模型中单调对齐的限制。
- 设计一种无需解码器的架构,可直接按顺序输出短语,实现线性时间推理。
- 评估自动发现和分割短语是否相比标准注意力机制的神经机器翻译提升翻译性能。
- 证明短语级建模可提升翻译质量,并生成有意义、可复用的输出短语。
提出的方法
- NPMT 在将输入序列送入双向 LSTM 编码器前,使用窗口大小为 7 的软重排层对输入序列执行(软)局部重排。
- 该重排层通过允许非单调的输入-输出对齐,缓解了 SWAN 中固有的单调对齐假设。
- 使用 512 个隐藏单元的双向 LSTM 编码器处理重排后的输入表示。
- 输出被输入至 SWAN 层,该层建模目标序列的分割,并直接学习预测短语,无需注意力机制。
- 模型采用贪婪解码和束搜索(beam size 为 10),并在越南语任务中引入四阶语言模型(KenLM)以进一步提升 BLEU 分数。
- 超参数包括每张 GPU 的批量大小为 48,使用 Adam 优化,初始初始学习率为 0.001,以及 0.4 的 dropout 率。
实验结果
研究问题
- RQ1与标准注意力机制模型相比,显式建模目标语言中的短语结构是否能提升神经机器翻译性能?
- RQ2通过软重排层放松 SWAN 中的单调对齐约束,是否能带来更高的翻译质量与更灵活的对齐方式?
- RQ3是否能通过基于短语的解码机制在不使用注意力机制的情况下获得具有竞争力的 BLEU 分数?
- RQ4目标语言中自动发现的短语在多大程度上提升了翻译流畅性与语义连贯性?
- RQ5NPMT 是否能泛化至多种语言对,包括低资源语言对(如英越语)?
主要发现
- 在 IWSLT 2015 英文-越南文 tst2013 测试集上,NPMT 使用束搜索获得 27.69 的 BLEU 分数,比基线注意力序列到序列模型高出 1.59 个 BLEU 点。
- 引入语言模型后,BLEU 分数进一步提升至 28.07,证明了结构建模与 n-gram 语言模型结合的有效性。
- 在 IWSLT 2014 德文-英文和英文-德文任务中,NPMT 的 BLEU 分数优于强基线注意力机制神经机器翻译模型。
- 模型生成了有意义且连贯的短语,定性分析显示其能正确分割并翻译多词单位。
- NPMT 实现线性时间解码,因其避免使用注意力机制并直接按顺序生成短语,计算效率高。
- 软重排层有效缓解了 SWAN 的单调对齐约束,使模型在非单调语言对上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。