[论文解读] Modeling Coherence for Neural Machine Translation with Dynamic and Topic Caches
本文提出了一种基于缓存的神经网络模型用于NMT,该模型使用来自先前翻译的动态缓存和由文档主题得到的主题缓存来提升文档级连贯性,并通过门控机制将缓存概率与NMT解码器结合,端到端训练。
Sentences in a well-formed text are connected to each other via various links to form the cohesive structure of the text. Current neural machine translation (NMT) systems translate a text in a conventional sentence-by-sentence fashion, ignoring such cross-sentence links and dependencies. This may lead to generate an incoherent target text for a coherent source text. In order to handle this issue, we propose a cache-based approach to modeling coherence for neural machine translation by capturing contextual information either from recently translated sentences or the entire document. Particularly, we explore two types of caches: a dynamic cache, which stores words from the best translation hypotheses of preceding sentences, and a topic cache, which maintains a set of target-side topical words that are semantically related to the document to be translated. On this basis, we build a new layer to score target words in these two caches with a cache-based neural model. Here the estimated probabilities from the cache-based neural model are combined with NMT probabilities into the final word prediction probabilities via a gating mechanism. Finally, the proposed cache-based neural model is trained jointly with NMT system in an end-to-end manner. Experiments and analysis presented in this paper demonstrate that the proposed cache-based model achieves substantial improvements over several state-of-the-art SMT and NMT baselines.
研究动机与目标
- 在神经机器翻译中超越句级翻译,动机在于实现文档级连贯性约束。
- 引入两种缓存(动态缓存和主题缓存)以捕捉跨句和主题信息。
- 开发一个基于缓存的神经网络模型,对缓存条目进行评分并将其与NMT预测集成。
- 通过端到端训练的框架将缓存模型与NMT系统联合训练。
- 在NIST中-英任务上对比SMT/NMT基线,证明在NIST Chinese–English translation上的有效性。
提出的方法
- 定义一个动态缓存,存储最近翻译的句子中的单词(使用先进先出置换并排除停用词)。
- 通过一个基于LDA的主题投影模型,将源端主题投影到目标端主题词,定义一个主题缓存。
- 实现一个缓存评分神经网络,利用解码器状态、上下文和缓存词来计算缓存词的分数,产生 p_cache(y_t|... )。
- 通过门控机制将缓存概率与标准NMT概率结合: p(y_t|...) = (1-α_t) p_cache(y_t|...) + α_t p_nmt(y_t|...).
- 通过最小化训练语料上的负对数似然,对整个系统进行端到端训练。
- 在NIST Chinese–English任务上评估,并与Moses和RNNSearch*基线进行比较。
实验结果
研究问题
- RQ1通过在文档级缓存的加入,神经机器翻译是否可以提升文档级连贯性?
- RQ2动态缓存(最近翻译)与基于主题的缓存对翻译质量的影响分别如何?
- RQ3门控机制是否能有效将基于缓存的预测与标准NMT预测结合?
- RQ4主题缓存和动态缓存如何影响文档中的翻译连贯性与一致性?
主要发现
- 动态缓存与主题缓存的结合在BLEU上相对于RNNSearch*的提升平均点数为1.60(较Moses高出4.83点)。
- 动态缓存与主题缓存共同带来最佳的平均BLEU提升(RNNSearch*_+Cd,Ct = 35.52 Avg)。
- 门控机制至关重要;固定门控(α=0.3)会显著降低性能。
- 主题缓存通过与全局文档主题对齐,帮助开始文档的翻译;动态缓存有助于跨句的一致性。
- 启用缓存的NMT在连贯性上优于基线(相邻句子的余弦相似度:0.4274 vs 0.4259)。
- 示例表明使用缓存时翻译选择更一致(例如同一中文术语使用相同词汇)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。