Skip to main content
QUICK REVIEW

[论文解读] Lattice-Based Recurrent Neural Network Encoders for Neural Machine Translation

Jinsong Su, Zhixing Tan|arXiv (Cornell University)|Sep 25, 2016
Natural Language Processing Techniques被引用 57
一句话总结

本文提出基于格子的RNN编码器用于神经机器翻译,将标准RNN推广至处理编码源句多种分词形式的词格子。通过同时利用多种潜在分词方式,该方法减少了来自1-best分词的误差传播,在中文-英文翻译任务上显著优于标准RNN编码器。

ABSTRACT

Neural machine translation (NMT) heavily relies on word-level modelling to learn semantic representations of input sentences. However, for languages without natural word delimiters (e.g., Chinese) where input sentences have to be tokenized first, conventional NMT is confronted with two issues: 1) it is difficult to find an optimal tokenization granularity for source sentence modelling, and 2) errors in 1-best tokenizations may propagate to the encoder of NMT. To handle these issues, we propose word-lattice based Recurrent Neural Network (RNN) encoders for NMT, which generalize the standard RNN to word lattice topology. The proposed encoders take as input a word lattice that compactly encodes multiple tokenizations, and learn to generate new hidden states from arbitrarily many inputs and hidden states in preceding time steps. As such, the word-lattice based encoders not only alleviate the negative impact of tokenization errors but also are more expressive and flexible to embed input sentences. Experiment results on Chinese-English translation demonstrate the superiorities of the proposed encoders over the conventional encoder.

研究动机与目标

  • 解决中文等低资源、无空格分隔语言中次优或有误的分词问题。
  • 通过整合多个候选分词方案,减少标准NMT编码器中因1-best分词导致的误差传播。
  • 通过词格子结构提升RNN编码器的表达能力和灵活性。
  • 验证基于格子的RNN在提升中文-英文翻译性能方面的有效性。

提出的方法

  • 将标准RNN推广至在词格子上运行,其中每个节点代表一个词候选,边表示候选之间的转移。
  • 提出两种变体:浅层格子GRU通过不改变网络结构的方式,将多个路径的输入与隐藏状态进行融合;深层格子GRU则学习与分词相关的门、输入和隐藏状态更新。
  • 在注意力机制中,通过所有格子路径的源端注释加权和计算上下文向量。
  • 使用标准NMT目标端到端训练编码器,使模型在编码过程中可动态关注相关格子路径。
  • 利用多个分词系统(如CTB、PKU、MSR)构建词格子,生成多样化且高覆盖率的分词形式。
  • 通过在每个时间步对所有格子路径的隐藏状态和输入进行聚合,将格子输入整合到GRU更新方程中。

实验结果

研究问题

  • RQ1在缺乏自然词边界的语言中,词格子能否提升NMT中源句表示的学习效果?
  • RQ2同时处理多种分词形式是否能减轻1-best分词误差对NMT的负面影响?
  • RQ3基于格子的RNN编码器与标准RNN编码器相比,在翻译质量与鲁棒性方面表现如何?
  • RQ4通过利用多样化的分词假设,基于格子的编码器是否能更好地捕捉语义表示?

主要发现

  • 所提出的基于格子的RNN编码器在中文-英文翻译任务上显著优于标准RNN编码器,BLEU分数持续提升。
  • 格子语料在词汇表中覆盖的字符跨度比例最高,优于CTB、PKU和MSR等单一分词语料。
  • 使用多种分词假设显著减少了UNK词数量,提升了覆盖度并缓解了OOV问题。
  • 深层格子GRU变体性能优于浅层变体,表明学习与分词相关的表示可增强模型建模能力。
  • 结果证实,词边界信息对NMT中准确的句子表示至关重要,尤其在中文等语言中。
  • 本工作首次将词格子集成到RNN编码器中用于NMT,建立了一种新型的鲁棒序列建模范式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。