QUICK REVIEW

[论文解读] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection

Guerreiro, Nuno M., Ricardo Rei|arXiv (Cornell University)|Oct 16, 2023

Natural Language Processing Techniques被引用 16

一句话总结

xCOMET 是一个统一的开源机器翻译评估指标，能够同时执行句级回归和错误区间检测，在句子级、系统级和错误区间评估中与人工判断保持高相关性，同时突出显示翻译错误及其严重性。

ABSTRACT

Widely used learned metrics for machine translation evaluation, such as COMET and BLEURT, estimate the quality of a translation hypothesis by providing a single sentence-level score. As such, they offer little insight into translation errors (e.g., what are the errors and what is their severity). On the other hand, generative large language models (LLMs) are amplifying the adoption of more granular strategies to evaluation, attempting to detail and categorize translation errors. In this work, we introduce xCOMET, an open-source learned metric designed to bridge the gap between these approaches. xCOMET integrates both sentence-level evaluation and error span detection capabilities, exhibiting state-of-the-art performance across all types of evaluation (sentence-level, system-level, and error span detection). Moreover, it does so while highlighting and categorizing error spans, thus enriching the quality assessment. We also provide a robustness analysis with stress tests, and show that xCOMET is largely capable of identifying localized critical errors and hallucinations.

研究动机与目标

激励需要比单句分数更具信息性的 MT 评估。
开发一个统一的指标，将基于回归的质量评估与细粒度错误区间检测结合起来。
利用高质量的公开 DA 和 MQM 数据以及合成扰动来训练鲁棒模型。
展示在句子级、系统级和错误区间任务上的最先进性能。

提出的方法

使用一个大型预训练编码器骨干，带有两个预测头：句级回归头和词/区间级严重性标注器。
采用一个完全统一的输入方案，在单一模型中处理 REF、SRC+REF 和 SRC 评估。
通过三阶段课程进行训练，在句级监督（DA）、词级监督（MQM）和联合细化（高质量 MQM 数据与合成幻觉）之间交替。
通过三个前向传递（SRC、REF、SRC+REF）得到的句级分数，以及从预测的错误区间推断的 MQM 分数，通过加权和来产生最终句子分数。
通过在多次传递中平均词级预测并将相邻的错误标记分组为区间，其严重性来自最严重标记。
在基于参考和无参考设置下进行评估，并启用与 MQM 一致的错误区间注释。

实验结果

研究问题

RQ1单一的 MT 评估模型是否能同时提供可靠的句级分数和细粒度的错误区间？
RQ2统一输入策略和多任务训练是否在句子级、系统级和错误区间评估上实现最先进性能？
RQ3模型对局部错误和幻觉的鲁棒性如何，错误区间是否有助于检测它们？
RQ4训练课程和合成数据对指标的质量和可解释性有何影响？

主要发现

xCOMET 在句子级取得了最先进的相关性，并在错误区间预测方面表现强劲，超过了若干神经指标，且与大型 LLM 基准评估器竞争力强。
从错误区间推断的 MQM 分数与句子级预测高度一致，提供区间与总体分数之间的透明联系。
错误区间预测在错误检测方面超过或匹配 GPT-3.5/GPT-4 基线，同时规模更小、效率更高。
错误区间实现对局部错误的鲁棒定位（如否定、数字/命名实体错误），并显示 xCOMET 能检测并惩罚幻觉。
在 zh-en、en-de、en-ru 等语言对中，xCOMET-XL/XXL 为句子级和系统级评估设定了新基线，XXL 在非-LLM 基线中常居首位。
对 SMAUG 与幻觉基准的鲁棒性分析显示 xCOMET 对病态翻译的敏感性及对幻觉的恰当排序能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。