[论文解读] Neural Reranking Improves Subjective Quality of Machine Translation: NAIST at WAT2015
本文提出使用神经机器翻译(NMT)重排序来提升基于语法的统计机器翻译(SMT)输出的语法正确性和主观质量。通过使用基于注意力机制的NMT模型对最先进的SMT系统生成的n-best假设进行重排序,该方法在自动评估(BLEU、RIBES)和人工评估中均取得显著提升,主要通过纠正诸如短语重新排序、系动词的插入/删除、并列结构误分析以及动词一致性的句法错误,而词汇选择的改进则较为有限。
This year, the Nara Institute of Science and Technology (NAIST)'s submission to the 2015 Workshop on Asian Translation was based on syntax-based statistical machine translation, with the addition of a reranking component using neural attentional machine translation models. Experiments re-confirmed results from previous work stating that neural MT reranking provides a large gain in objective evaluation measures such as BLEU, and also confirmed for the first time that these results also carry over to manual evaluation. We further perform a detailed analysis of reasons for this increase, finding that the main contributions of the neural models lie in improvement of the grammatical correctness of the output, as opposed to improvements in lexical choice of content words.
研究动机与目标
- 调查神经重排序在自动评估指标上的提升是否也转化为人工评分翻译质量的改善。
- 分析神经重排序所纠正的具体翻译错误类型,特别关注句法错误与词汇错误的区别。
- 评估n-best列表大小对重排序性能的影响,并识别性能饱和点。
提出的方法
- 以一个基于语法的SMT系统(NAIST WAT2014)作为基线,为四种语言对(ja-en、en-ja、ja-zh、zh-ja)生成n-best翻译假设。
- 在相同平行语料上训练一个基于注意力机制的神经机器翻译模型,以NMT生成的似然性作为特征,基于对数线性模型对n-best假设进行重排序。
- 重排序过程采用对数线性模型,特征包括NMT生成的句子似然性、BLEU分数和语言模型分数,通过MERT进行优化。
- 神经模型使用双向LSTM编码源句,并通过在源隐藏状态上使用软注意力机制,自回归地生成目标词。
- 注意力机制将上下文向量计算为源隐藏状态的加权和,从而实现源词与目标词之间的对齐。
- 实验中将n-best列表大小从1变化到1000,以评估其对自动评估和人工评估分数的影响。
实验结果
研究问题
- RQ1神经重排序是否不仅提升了BLEU等自动指标,也提升了翻译质量的人工主观评价?
- RQ2神经重排序最有效纠正的翻译错误类型是句法错误还是词汇错误?
- RQ3n-best列表大小如何影响神经重排序在自动评估和人工评估中的性能?
- RQ4与词汇准确性相比,神经模型在重排序输出中对语法正确性的提升程度如何?
- RQ5在实际可用的n-best列表大小下,神经重排序的性能是否已达到饱和,还是仍有进一步提升的空间?
主要发现
- 神经重排序显著提升了BLEU和RIBES分数,所有四种语言对均观察到性能增益,证实自动指标的提升与人工评分质量提升相关。
- 人工评估确认神经重排序提升了主观质量,且绝大多数改进归因于语法正确性的提升,而非词汇选择的改善。
- 最常被纠正的错误类型包括短语重新排序(如错误的词序)、系动词的插入/删除、并列结构的误分析以及动词一致性的错误。
- 神经模型通过正确保留句法结构(如并列的名词短语和主谓一致)来提升语法正确性,即使SMT解析器出现错误也能纠正。
- 词汇选择在重排序过程中大多被劣化,有4处退化超过2处改进,因为模型倾向于选择更常见的词汇(如用'radiation heat'替代'radiant heat')。
- 随着n-best列表大小增加,性能增益近似呈对数线性关系,即使在1000个假设时也未达到饱和,表明通过更大列表或直接神经解码仍有进一步提升空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。