[論文レビュー] WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia
WikiMatrix は Wikipedia から 1620 言語ペアにわたる 135 million の対訳文を自動的にマイニングし、マルチリンガル文埋め込みとマージンベースの距離アプローチを用いて、英語中心のペアを超えた広範な MT カバレッジを可能にします。
We present an approach based on multilingual sentence embeddings to automatically extract parallel sentences from the content of Wikipedia articles in 85 languages, including several dialects or low-resource languages. We do not limit the the extraction process to alignments with English, but systematically consider all possible language pairs. In total, we are able to extract 135M parallel sentences for 1620 different language pairs, out of which only 34M are aligned with English. This corpus of parallel sentences is freely available at https://github.com/facebookresearch/LASER/tree/master/tasks/WikiMatrix. To get an indication on the quality of the extracted bitexts, we train neural MT baseline systems on the mined data only for 1886 languages pairs, and evaluate them on the TED corpus, achieving strong BLEU scores for many language pairs. The WikiMatrix bitexts seem to be particularly interesting to train MT systems between distant languages without the need to pivot through English.
研究の動機と目的
- 大規模で多言語の対訳コーパスが英語中心のペアを超える必要性を動機づける。
- Wikipedia から数百の言語にまたがる対訳文を抽出するスケーラブルなマイニング・パイプラインを提案する。
- 多言語文埋め込みを活用して、共通空間での言語間アライメントを可能にする。
- MT システムを訓練し、TED および関連ベンチマークでの性能を評価して、マイニングデータを評価する。
提案手法
- LASER 多言語文埋め込みを用いて 182 言語の文を共通空間にマッピングする。
- 埋め込み空間でマージンベースの規準を適用し、すべての言語ペア間で相互翻訳を識別する。
- 英語のピボットに限定せず、Wikipedia 全体のコーパスを横断してグローバルにマイニングを行う。
- 高速な GPU 加速最近傍探索と 64-bit の product-quantizer を用いた IVF インデックスで FAISS を活用し、スケーラビリティを確保する。
- マイニング前に文が正しい言語であることを保証するため、重複排除と言語識別を実施する。
実験結果
リサーチクエスチョン
- RQ1千を超える言語ペアのために、単一の多言語埋め込み空間が信頼できる対訳文マイニングをサポートできるか?
- RQ2大規模なビーテキスト抽出において、絶対閾値と比較したマージンベースの類似性規準の性能はどうか?
- RQ3マイニングされた WikiMatrix データが遠隔の言語ペアの MT 性能に与える影響はどの程度か?
- RQ4グローバル(記事ローカルではない)マイニングに依存することは、対訳文抽出の精度と再現性に影響を与えるか?
主な発見
- Wikipedia から 1620 言語ペアの 135M 対訳文をマイニングし、そのうち 34M は English と整列。
- マイニングデータで訓練した NMT モデルは、TED の多くの言語ペアで強い BLEU スコアを達成し、同程度のサイズの Europarl 相当のベースラインを上回ることが多い。
- マージン閾値を約 1.04 に設定すると、データ量と翻訳品質の間で有利なバランスが得られ、閾値を低くするとデータのノイズが増える。
- Wikipedia 全体を横断してのグローバルマイニングは、英語を介さずとも遠隔言語ペアの MT 改善を可能にする。
- このコーパスは、多言語 NMT と低リソース言語ペアの研究を支援するために公開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。