QUICK REVIEW

[论文解读] The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Naman Goyal, Cynthia Gao|arXiv (Cornell University)|Jun 6, 2021

Natural Language Processing Techniques被引用 82

一句话总结

Flores-101 是一个包含 3001 句、101 种语言的基准数据，具高质量、专业翻译、与多语言对齐的数据，支持多对多评估以及文档/多模态扩展。它包含一个基于 BLEU 的 SentencePiece 指标并发布了基线。

ABSTRACT

One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.

研究动机与目标

提供一个高质量、覆盖面广的低资源与多语言 MT 评估基准。
实现 101 种语言之间的多语言对齐的多对多评估。
支持文档级和多模态翻译评估。
发布数据、元数据和基线，以促进低资源 MT 领域的研究。

提出的方法

从 English Wikipedia 的 WikiNews、WikiJunior 和 WikiVoyage 领域获取 3001 句。
通过先导研究设计翻译工作流和跨语言的 QA 流程。
使用专业翻译人员，采用两阶段翻译+ QA 工作流，必要时进行再翻译。
实施自动检查以检测引擎复制翻译，确保评估的公正性。
定义翻译质量分数（0-100）以决定语言是否进入 Flores-101（阈值 90%）。
提出 SentencePiece BLEU 指标以统一跨语言评估。

实验结果

研究问题

RQ1我们如何构建一个高质量、覆盖面广的低资源与多语言 MT 评估基准？
RQ2Flores-101 是否能够支持稳健的多对多多语言评估并扩展到文档与多模态任务？
RQ3哪种翻译工作流和 QA 协议在保持跨 101 种语言的可扩展性同时最大化质量？
RQ4统一的 SentencePiece BLEU 指标在跨语言 MT 评估中的表现如何？

主要发现

Flores-101 含有 3001 句并翻译成 101 种语言，覆盖多样的领域和主题。
该数据集支持多对多评估（例如 10、100 种语言对）并包含用于后续任务的丰富元数据。
两次 LSP 的翻译–QA 工作流结合再翻译，产生高质量翻译，平均每种语言的翻译时间约为两个月。
自动检查显著降低引擎复制翻译的风险，提升评估完整性。
翻译质量分数阈值 90% 被用于判断语言是否具备进入 Flores-101 的条件。
提出 SentencePiece BLEU 指标以统一全语言评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。