[论文解读] The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation
Flores-101 是一个包含 3001 句、101 种语言的基准数据,具高质量、专业翻译、与多语言对齐的数据,支持多对多评估以及文档/多模态扩展。它包含一个基于 BLEU 的 SentencePiece 指标并发布了基线。
One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.
研究动机与目标
- 提供一个高质量、覆盖面广的低资源与多语言 MT 评估基准。
- 实现 101 种语言之间的多语言对齐的多对多评估。
- 支持文档级和多模态翻译评估。
- 发布数据、元数据和基线,以促进低资源 MT 领域的研究。
提出的方法
- 从 English Wikipedia 的 WikiNews、WikiJunior 和 WikiVoyage 领域获取 3001 句。
- 通过先导研究设计翻译工作流和跨语言的 QA 流程。
- 使用专业翻译人员,采用两阶段翻译+ QA 工作流,必要时进行再翻译。
- 实施自动检查以检测引擎复制翻译,确保评估的公正性。
- 定义翻译质量分数(0-100)以决定语言是否进入 Flores-101(阈值 90%)。
- 提出 SentencePiece BLEU 指标以统一跨语言评估。
实验结果
研究问题
- RQ1我们如何构建一个高质量、覆盖面广的低资源与多语言 MT 评估基准?
- RQ2Flores-101 是否能够支持稳健的多对多多语言评估并扩展到文档与多模态任务?
- RQ3哪种翻译工作流和 QA 协议在保持跨 101 种语言的可扩展性同时最大化质量?
- RQ4统一的 SentencePiece BLEU 指标在跨语言 MT 评估中的表现如何?
主要发现
- Flores-101 含有 3001 句并翻译成 101 种语言,覆盖多样的领域和主题。
- 该数据集支持多对多评估(例如 10、100 种语言对)并包含用于后续任务的丰富元数据。
- 两次 LSP 的翻译–QA 工作流结合再翻译,产生高质量翻译,平均每种语言的翻译时间约为两个月。
- 自动检查显著降低引擎复制翻译的风险,提升评估完整性。
- 翻译质量分数阈值 90% 被用于判断语言是否具备进入 Flores-101 的条件。
- 提出 SentencePiece BLEU 指标以统一全语言评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。