[论文解读] Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019
本文通过识别人类评估中的三个关键缺陷,挑战了 WMT 2019 中关于机器翻译达到人类水平甚至超越人类水平的宣称:有限的句间上下文、非专业评估人员以及基于参考译文的评估。在采用专业翻译人员和完整文档上下文的修订评估后,作者仅认可英语→德语翻译的人类水平,其余宣称均被驳回,呼吁未来机器翻译评估应采用更完善的评估标准。
We reassess the claims of human parity and super-human performance made at the news shared task of WMT 2019 for three translation directions: English-to-German, English-to-Russian and German-to-English. First we identify three potential issues in the human evaluation of that shared task: (i) the limited amount of intersentential context available, (ii) the limited translation proficiency of the evaluators and (iii) the use of a reference translation. We then conduct a modified evaluation taking these issues into account. Our results indicate that all the claims of human parity and super-human performance made at WMT 2019 should be refuted, except the claim of human parity for English-to-German. Based on our findings, we put forward a set of recommendations and open questions for future assessments of human parity in machine translation.
研究动机与目标
- 批判性地重新评估 WMT 2019 报告中关于机器翻译系统达到人类水平和超越人类水平宣称的有效性。
- 识别并分析人类评估设置中的三个关键缺陷:有限的句间上下文、非专业评估人员以及基于参考译文的评估。
- 开展一项改进后的评估,以检验原始宣称在修正缺陷后是否仍然成立。
- 为未来机器翻译系统的人类评估,特别是人类水平评估,提供可操作的建议。
提出的方法
- 使用专业翻译人员而非非专业双语者,对 WMT 2019 的机器翻译系统进行了改进的人工评估。
- 向评估人员提供完整的文档上下文,确保其可访问前后文句子,以实现准确评估。
- 采用非基于参考译文的方法重新评估系统,以消除参考译文带来的偏差,尤其针对德语→英语方向。
- 将机器翻译输出与高质量和低质量的人工翻译进行对比,以检验人类水平宣称的稳健性。
- 使用统计分析评估机器翻译与人工翻译之间的差异是否具有显著性。
- 将研究发现应用于重新评估原始 WMT 2019 宣称,重点关注英语→德语、英语→俄语以及德语→英语的翻译方向。
实验结果
研究问题
- RQ1有限的句间上下文以及缺乏文档级上下文在多大程度上影响了机器翻译评估中人类评估的可靠性?
- RQ2评估人员的翻译水平在多大程度上影响了对机器翻译质量的判断,以及人类水平宣称的有效性?
- RQ3基于参考译文的评估在多大程度上引入了偏差,并扭曲了对机器翻译性能的评估?
- RQ4在改进后的评估条件下,是否有任何机器翻译系统真正实现了人类水平或超越人类水平的表现?
- RQ5为确保未来机器翻译评估中人类水平宣称的有效性和可靠性,需要进行哪些方法论上的改进?
主要发现
- 在使用专业翻译人员和完整文档上下文评估时,英语→德语翻译达到人类水平的宣称仍然成立。
- 在改进的评估设置下,其余关于人类水平和超越人类水平的宣称——特别是英语→俄语和德语→英语方向——均被驳回。
- 使用非专业评估人员导致评分更加宽松,夸大了机器翻译的质量,从而导致人类水平宣称的误判。
- 基于参考译文的评估引入了偏差,尤其在德语→英语方向,参考译文影响了评估结果,可能促成了人类水平宣称的产生。
- 专业翻译人员之间的评估者间一致性显著更高,表明其评估结果相比非专业人员更具可靠性。
- 本研究证实,当前机器翻译评估实践,尤其是在 WMT 等高规格竞赛中,尚不足以支持对人类水平或超越人类水平的确定性宣称。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。