Skip to main content
QUICK REVIEW

[論文レビュー] The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Naman Goyal, Cynthia Gao|arXiv (Cornell University)|Jun 6, 2021
Natural Language Processing Techniques被引用数 82
ひとこと要約

Flores-101 は 3001 語の、101 言語のベンチマークであり、高品質な専門的に翻訳された、多言語対応データを提供し、多対多評価や文書/マルチモーダル拡張を可能にする。BLEU ベースの SentencePiece 指標と公開ベースラインを含む。

ABSTRACT

One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.

研究の動機と目的

  • 低リソースおよび多言語 MT のための高品質で広範な評価ベンチマークを提供する。
  • 101 言語での多言語整列を用いた多対多の多言語評価を可能にする。
  • 文書レベルおよびマルチモーダル翻訳評価のサポート。
  • データ、メタデータ、ベースラインを公開して低リソース MT の研究を促進する。

提案手法

  • WikiNews、WikiJunior、WikiVoyage にまたがる英語版 Wikipedia から 3001 語を収集。
  • 翻訳ワークフローと QA プロセスを言語間で設計するためのパイロット調査を実施。
  • 2 段階の翻訳+QA ワークフローと必要に応じた再翻訳を行うプロの翻訳者を起用。
  • エンジンコピー翻訳を検出し公正な評価を保証する自動検査を実装。
  • 翻訳品質スコア (0-100) を定義し、含める言語の準備度を決定(閾値 90%)を。
  • 言語横断の評価を統一する SentencePiece BLEU 指標を提案。

実験結果

リサーチクエスチョン

  • RQ1低リソースおよび多言語 MT のために高品質で広範な評価ベンチマークをどう構築するか?
  • RQ2Flores-101 は堅牢な多対多多言語評価をサポートし、文書・マルチモーダルタスクへ拡張できるか?
  • RQ3101 言語に跨って品質を最大化しつつ拡張可能な翻訳ワークフローと QA プロトコルは何か?
  • RQ4統一された SentencePiece BLEU 指標は言語横断の MT 評価にどのような性能を示すか?

主な発見

# 言語多様多対人間文書マルチ
Flores-101 101
Flores v1 2
AmericasNLI 10
ALT 13
Europarl 21
TICO-19 36
OPUS-100 100
M2M 100
  • Flores-101 には 101 言語へ翻訳された 3001 語が含まれており、様々なドメインとトピックを特徴とする。
  • データセットは多対多評価(例: 10, 100 言語ペア)をサポートし、さらなるタスクのための豊富なメタデータを含む。
  • 二段階LSP、翻訳–QA ワークフローと再翻訳により高品質な翻訳を得られ、言語ごとの翻訳平均所要時間は約2か月だった。
  • 自動検査はエンジンコピー翻訳のリスクを大幅に低減し、評価の整合性を改善した。
  • 翻訳品質スコア閾値 90% が Flores-101 収録言語の適用性を判断するために用いられる。
  • SentencePiece BLEU 指標を提案し、言語全体の評価を統一する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。