Skip to main content
QUICK REVIEW

[论文解读] Analyzing Uncertainty in Neural Machine Translation

Myle Ott, Michael Auli|arXiv (Cornell University)|Feb 28, 2018
Natural Language Processing Techniques参考文献 30被引用 55
一句话总结

本文分析神经机器翻译中的内在不确定性和外在不确定性,比较束搜索(beam search)与采样,并指出尽管搜索有效,但模型把概率质量过于分散在多个假设上,训练数据中的噪声(如拷贝源)会降低大束宽度时的性能;同时提供校准分析和简单的缓解策略。

ABSTRACT

Machine translation is a popular test bed for research in neural sequence-to-sequence models but despite much recent research, there is still a lack of understanding of these models. Practitioners report performance degradation with large beams, the under-estimation of rare words and a lack of diversity in the final translations. Our study relates some of these issues to the inherent uncertainty of the task, due to the existence of multiple valid translations for a single source sentence, and to the extrinsic uncertainty caused by noisy training data. We propose tools and metrics to assess how uncertainty in the data is captured by the model distribution and how it affects search strategies that generate translations. Our results show that search works remarkably well but that models tend to spread too much probability mass over the hypothesis space. Next, we propose tools to assess model calibration and show how to easily fix some shortcomings of current models. As part of this study, we release multiple human reference translations for two popular benchmarks.

研究动机与目标

  • 研究固有任务不确定性(多种有效翻译)和外在数据噪声如何影响NMT性能。
  • 评估模型分布与数据分布的拟合程度,以及这对搜索策略的影响。
  • 在词元、集合和序列等级别描述校准情况并提出对策。
  • 评估训练数据中的伪迹(如源拷贝)对大束解码的影响。
  • 提供实用的缓解策略并发布用于基准测试的人类参考翻译。

提出的方法

  • 使用基于 Fairseq 的预训练序列到序列模型,具有编码器-解码器架构和注意力机制。
  • 通过在假设集合上比较束搜索和采样并评估 BLEU 与模型似然来量化不确定性。
  • 分析词元层面的 unigram 统计,将模型输出与数据分布进行比较。
  • 通过比较假设集合上的模型概率与真实数据概率来评估集合层级的校准。
  • 在训练数据中引入合成拷贝噪声,以研究外在不确定性效应并测试缓解策略。
  • 为 WMT 数据集发布多份人类参考翻译以支持评估。

实验结果

研究问题

  • RQ1NMT 模型在捕捉翻译固有歧义与训练数据伪迹方面表现如何?
  • RQ2为何较大束宽会降低翻译质量,是由于模型拟合问题还是搜索偏差?
  • RQ3NMT 模型在词元、句子和集合层面上是否对概率估计进行校准?
  • RQ4数据伪迹(如拷贝源目标)对解码行为和翻译质量有何影响?
  • RQ5简单的数据清理和推断约束能否缓解宽束观察到的问题?

主要发现

  • 束搜索在找到高似然翻译方面很有效,但模型分布将概率质量过广地分散在各个假设上。
  • 采样产生多样化的输出,其对最高候选的 top-BLEU 低于束搜索,且随着更多样本被抽取,BLEU 可能下降。
  • 训练数据中的拷贝式噪声(源的目标拷贝)在大束输出中不成比例地提高拷贝比例,导致宽束的 BLEU 下降。
  • 数据预处理(去除拷贝类对)和推断约束(修剪与源的重叠)缓解大束降级并提高 BLEU。
  • 来自模型采样的 unigram 统计在常见词上与数据一致,但在束输出中对罕见词的表示不足,表明词级校准存在差距。
  • 集合级校准显示在考虑假设集合时,模型的概率质量与数据分布一致,即使单个序列可能被高估或低估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。