[论文解读] To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation
本文对 MT 自动评测指标在成对系统排名中的人类判断进行大规模评估,结果显示预训练指标(特别是 COMET 和 COMET-src)优于基于字符串的指标,并提出指标使用的最佳实践。
Automatic metrics are commonly used as the exclusive tool for declaring the superiority of one machine translation system's quality over another. The community choice of automatic metric guides research directions and industrial developments by deciding which models are deemed better. Evaluating metrics correlations with sets of human judgements has been limited by the size of these sets. In this paper, we corroborate how reliable metrics are in contrast to human judgements on -- to the best of our knowledge -- the largest collection of judgements reported in the literature. Arguably, pairwise rankings of two systems are the most common evaluation tasks in research or deployment scenarios. Taking human judgement as a gold standard, we investigate which metrics have the highest accuracy in predicting translation quality rankings for such system pairs. Furthermore, we evaluate the performance of various metrics across different language pairs and domains. Lastly, we show that the sole use of BLEU impeded the development of improved models leading to bad deployment decisions. We release the collection of 2.3M sentence-level human judgements for 4380 systems for further analysis and replication of our work.
研究动机与目标
- 评估自动 MT 指标在成对系统排名中的人类判断预测的可靠性。
- 比较语言对、领域和方向,以评估指标的鲁棒性。
- 在不同设置中,确定预训练指标是否优于传统的基于字符串的指标。
- 为在研究和部署中使用自动 MT 指标提供实用的最佳实践建议。
提出的方法
- 整理公开发布的最大规模的人类判断集合(2.3M judgments across 4380 systems)。
- 将二元成对准确率作为对人类判断的主要评估指标。
- 在成对系统差异上评估一组自动指标(基于字符串的和预训练的)。
- 使用 Wilcoxon signed-rank tests 和 bootstrap resampling 来评估显著性和置信度。
- 在语言方向、非英语情形和领域中分析性能以检验鲁棒性。
实验结果
研究问题
- RQ1哪种自动 MT 指标最能预测基于人类的成对系统排名?
- RQ2指标在语言方向、非英语语言和不同领域中的表现如何?
- RQ3将统计显著性检验用于成对决策对指标可靠性的影响?
- RQ4依赖 BLEU 是否会对研究或开发产生偏见,预训练指标是否可以缓解?
主要发现
- 预训练指标通常在成对系统排名方面优于基于字符串的指标,其中 COMET 取得最高准确度。
- COMET-src 同样表现良好,令人惊讶地在不使用人类参考的情况下也有良好表现。
- 在基于字符串的指标中,ChrF 在成对排名准确度方面优于 BLEU。
- 使用成对显著性检验(bootstrap)在很大程度上提高了跨指标的排名可靠性。
- BLEU 往往导致次优决策并且可能对模型开发产生负面偏倚,而预训练指标在语言和领域上表现出鲁棒性。
- 即使对于高度不同的系统,准确度也仍低于 100%,表明自动指标不能完全取代人类评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。