QUICK REVIEW

[论文解读] Unbabel's Participation in the WMT20 Metrics Shared Task

Ricardo Rei, Craig Stewart|arXiv (Cornell University)|Oct 29, 2020

Natural Language Processing Techniques参考文献 17被引用 26

一句话总结

本论文介绍了 Unbabel 参与 WMT20 评估共享任务的情况，采用增强版 COMET 框架，利用 XLM-RoBERTa 进行跨语言句子编码。作者提出了一种多参考推理技术以及一种加权平均方法用于文档级评分，在多个语种对的句子级、文档级、系统级及 QE-as-a-metric 轨道上均取得了最先进或具有竞争力的性能表现。

ABSTRACT

We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics. We intend to participate on the segment-level, document-level and system-level tracks on all language pairs, as well as the 'QE as a Metric' track. Accordingly, we illustrate results of our models in these tracks with reference to test sets from the previous year. Our submissions build upon the recently proposed COMET framework: We train several estimator models to regress on different human-generated quality scores and a novel ranking model trained on relative ranks obtained from Direct Assessments. We also propose a simple technique for converting segment-level predictions into a document-level score. Overall, our systems achieve strong results for all language pairs on previous test sets and in many cases set a new state-of-the-art.

研究动机与目标

通过增强 COMET 框架以支持句子级、文档级和系统级评分，提升自动机器翻译评估性能。
探究在多参考机器翻译评估中，参考文本质量与数量对模型与人类判断相关性的影响。
开发一种稳健的方法，将句子级评分聚合为文档级指标。
优化预训练跨语言模型的使用，以提升与人类判断的相关性。
评估排序模型与回归模型在多样化机器翻译评估场景下的有效性。

提出的方法

微调 XLM-RoBERTa-large 作为跨语言编码器，为源语文本、假设句和参考句生成上下文嵌入表示。
训练估计器模型，使用池化表示上的前馈回归器，直接回归人类质量评分（如直接评估、HTER、MQM）。
开发一种新型排序模型（COMET-rank），基于直接评估数据中的相对排名进行训练，用于比较机器翻译输出。
实施一种多参考推理策略，在推理阶段结合多个参考句，以提升预测的鲁棒性。
提出一种加权平均技术，将句子级评分聚合为单一的文档级评分。
应用层间学习率衰减并冻结嵌入层，以提升在不同语种对之间的泛化能力。

实验结果

研究问题

RQ1在自动机器翻译评估指标中，引入多个参考句如何影响性能？
RQ2在提升模型与人类判断相关性方面，额外参考句的质量是否比数量更为关键？
RQ3统一的 COMET 框架能否有效支持句子级、文档级和系统级的机器翻译评估？
RQ4不同预训练模型及微调策略如何影响与人类质量评分的相关性？
RQ5将句子级预测组合为文档级评分的最佳方法是什么？

主要发现

所提出的多参考推理技术在使用高质量替代参考句时，使 en-de 语种对的皮尔逊相关系数（r）提升至 0.455。
使用单一高质量参考句的表现优于使用多个低质量参考句，表明参考句质量比数量更为关键。
肯德尔等级相关系数（τ）在不同参考组合下保持稳定，表明句子级排序性能对参考句质量的敏感度低于回归性能。
该系统在多个语种对的全部赛道（句子级、文档级、系统级、QE-as-a-metric）中均取得了最先进或具有竞争力的结果。
基于句子级预测加权平均的文档级评分方法在多个测试集上表现有效且一致。
采用 XLM-RoBERTa-large 和微调回归器的 COMET 框架在 WMT19 测试集上优于现有指标（如 BERTscore、Bleurt 和 Prism）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。