Skip to main content
QUICK REVIEW

[论文解读] The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Naman Goyal, Cynthia Gao|arXiv (Cornell University)|Jun 6, 2021
Natural Language Processing Techniques被引用 82
一句话总结

Flores-101 是一个包含 3001 句、101 种语言的基准数据,具高质量、专业翻译、与多语言对齐的数据,支持多对多评估以及文档/多模态扩展。它包含一个基于 BLEU 的 SentencePiece 指标并发布了基线。

ABSTRACT

One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.

研究动机与目标

  • 提供一个高质量、覆盖面广的低资源与多语言 MT 评估基准。
  • 实现 101 种语言之间的多语言对齐的多对多评估。
  • 支持文档级和多模态翻译评估。
  • 发布数据、元数据和基线,以促进低资源 MT 领域的研究。

提出的方法

  • 从 English Wikipedia 的 WikiNews、WikiJunior 和 WikiVoyage 领域获取 3001 句。
  • 通过先导研究设计翻译工作流和跨语言的 QA 流程。
  • 使用专业翻译人员,采用两阶段翻译+ QA 工作流,必要时进行再翻译。
  • 实施自动检查以检测引擎复制翻译,确保评估的公正性。
  • 定义翻译质量分数(0-100)以决定语言是否进入 Flores-101(阈值 90%)。
  • 提出 SentencePiece BLEU 指标以统一跨语言评估。

实验结果

研究问题

  • RQ1我们如何构建一个高质量、覆盖面广的低资源与多语言 MT 评估基准?
  • RQ2Flores-101 是否能够支持稳健的多对多多语言评估并扩展到文档与多模态任务?
  • RQ3哪种翻译工作流和 QA 协议在保持跨 101 种语言的可扩展性同时最大化质量?
  • RQ4统一的 SentencePiece BLEU 指标在跨语言 MT 评估中的表现如何?

主要发现

  • Flores-101 含有 3001 句并翻译成 101 种语言,覆盖多样的领域和主题。
  • 该数据集支持多对多评估(例如 10、100 种语言对)并包含用于后续任务的丰富元数据。
  • 两次 LSP 的翻译–QA 工作流结合再翻译,产生高质量翻译,平均每种语言的翻译时间约为两个月。
  • 自动检查显著降低引擎复制翻译的风险,提升评估完整性。
  • 翻译质量分数阈值 90% 被用于判断语言是否具备进入 Flores-101 的条件。
  • 提出 SentencePiece BLEU 指标以统一全语言评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。