QUICK REVIEW

[論文レビュー] The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Naman Goyal, Cynthia Gao|arXiv (Cornell University)|Jun 6, 2021

Natural Language Processing Techniques被引用数 82

ひとこと要約

Flores-101 は 3001 語の、101 言語のベンチマークであり、高品質な専門的に翻訳された、多言語対応データを提供し、多対多評価や文書/マルチモーダル拡張を可能にする。BLEU ベースの SentencePiece 指標と公開ベースラインを含む。

ABSTRACT

One of the biggest challenges hindering progress in low-resource and multilingual machine translation is the lack of good evaluation benchmarks. Current evaluation benchmarks either lack good coverage of low-resource languages, consider only restricted domains, or are low quality because they are constructed using semi-automatic procedures. In this work, we introduce the FLORES-101 evaluation benchmark, consisting of 3001 sentences extracted from English Wikipedia and covering a variety of different topics and domains. These sentences have been translated in 101 languages by professional translators through a carefully controlled process. The resulting dataset enables better assessment of model quality on the long tail of low-resource languages, including the evaluation of many-to-many multilingual translation systems, as all translations are multilingually aligned. By publicly releasing such a high-quality and high-coverage dataset, we hope to foster progress in the machine translation community and beyond.

研究の動機と目的

低リソースおよび多言語 MT のための高品質で広範な評価ベンチマークを提供する。
101 言語での多言語整列を用いた多対多の多言語評価を可能にする。
文書レベルおよびマルチモーダル翻訳評価のサポート。
データ、メタデータ、ベースラインを公開して低リソース MT の研究を促進する。

提案手法

WikiNews、WikiJunior、WikiVoyage にまたがる英語版 Wikipedia から 3001 語を収集。
翻訳ワークフローと QA プロセスを言語間で設計するためのパイロット調査を実施。
2 段階の翻訳＋QA ワークフローと必要に応じた再翻訳を行うプロの翻訳者を起用。
エンジンコピー翻訳を検出し公正な評価を保証する自動検査を実装。
翻訳品質スコア (0-100) を定義し、含める言語の準備度を決定（閾値 90%）を。
言語横断の評価を統一する SentencePiece BLEU 指標を提案。

実験結果

リサーチクエスチョン

RQ1低リソースおよび多言語 MT のために高品質で広範な評価ベンチマークをどう構築するか？
RQ2Flores-101 は堅牢な多対多多言語評価をサポートし、文書・マルチモーダルタスクへ拡張できるか？
RQ3101 言語に跨って品質を最大化しつつ拡張可能な翻訳ワークフローと QA プロトコルは何か？
RQ4統一された SentencePiece BLEU 指標は言語横断の MT 評価にどのような性能を示すか？

主な発見

# 言語	多様	多対	人間	文書	マルチ
Flores-101	101	✓	✓	✓	✓	✓
Flores v1	2	✓	✗	✓	✗	✗
AmericasNLI	10	✓	✓	✓	✗	✗
ALT	13	✓	✓	✓	✗	✗
Europarl	21	✗	✓	✗	✓	✗
TICO-19	36	✗	✓	✓	✗	✗
OPUS-100	100	✓	✓	✗	✗	✗
M2M	100	✗	✓	✓	✗	✗

Flores-101 には 101 言語へ翻訳された 3001 語が含まれており、様々なドメインとトピックを特徴とする。
データセットは多対多評価（例: 10, 100 言語ペア）をサポートし、さらなるタスクのための豊富なメタデータを含む。
二段階LSP、翻訳–QA ワークフローと再翻訳により高品質な翻訳を得られ、言語ごとの翻訳平均所要時間は約2か月だった。
自動検査はエンジンコピー翻訳のリスクを大幅に低減し、評価の整合性を改善した。
翻訳品質スコア閾値 90% が Flores-101 収録言語の適用性を判断するために用いられる。
SentencePiece BLEU 指標を提案し、言語全体の評価を統一する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。