QUICK REVIEW

[論文レビュー] Beyond English-Centric Multilingual Machine Translation

Angela Fan, Shruti Bhosale|arXiv (Cornell University)|Oct 21, 2020

Natural Language Processing Techniques参考文献 81被引用数 468

ひとこと要約

本論文は、英語を介さずに100言語の真の多対多翻訳モデル（M2M-100）を構築し、大規模データマイニング・逆翻訳・密結合パラメータと疎結合パラメータの混在を活用して、非英語言語の翻訳性能を高める。

ABSTRACT

Existing work in translation demonstrated the potential of massively multilingual machine translation by training a single model able to translate between any pair of languages. However, much of this work is English-Centric by training only on data which was translated from or to English. While this is supported by large sources of training data, it does not reflect translation needs worldwide. In this work, we create a true Many-to-Many multilingual translation model that can translate directly between any pair of 100 languages. We build and open source a training dataset that covers thousands of language directions with supervised data, created through large-scale mining. Then, we explore how to effectively increase model capacity through a combination of dense scaling and language-specific sparse parameters to create high quality models. Our focus on non-English-Centric models brings gains of more than 10 BLEU when directly translating between non-English directions while performing competitively to the best single systems of WMT. We open-source our scripts so that others may reproduce the data, evaluation, and final M2M-100 model.

研究の動機と目的

英語中心の多言語機械翻訳の偏りに対処するため、非英語間の直接翻訳を可能にする。
多言語データマイニングと逆翻訳を用いて、7.5B文、2200方向の大規模な100言語並列データセットを作成する。
データ量の二次的拡大を扱うため、密結合容量と言語特有の疎結合パラメータによるモデルスケーリングを調査する。
すべての言語対を網羅的にカバーすることなく、有用な対訳データを効率的にマイニングするブリッジ言語データマイニング戦略を提案する。
得られたM2M-100モデルを対 bilingual baselines および WMT風ベンチマークと比較評価し、競争力のある性能を示す。

提案手法

安定化のためラベルスムージングとLayerDropを用いて訓練された、基盤モデルとして12個のエンコーダ層と12個のデコーダ層を持つ1.2BパラメータのTransformerベースのseq2seqアーキテクチャを使用する。
言語間でバランスをとる128kトークンの多言語辞書を用いたSentencePieceサブワード分割を採用する。
ブリッジ言語マイニングによって100言語の多対多並列データを構築し、言語を14クラスタに分け、26のブリッジ言語を使用し、英語とのマイニングも行う。
LASERベースの埋め込みとFAISSインデックスを組み合わせたデータマイニングパイプラインを用いてCCMatrix/CCAlignedから並列データを採掘し、後処理と言語固有の検査を施す。
100方向のバックトランスレーションを用いて、BLEU 2–10のスコア帯で採掘データを拡張し、ターゲット言語ごとに5000万のモノリンガル文をサンプリングしBTデータにタグを付ける。
言語特有のルーティングを伴う混合密結合・疎結合パラメータ戦略（mixture-of-experts）を組み込み、15.4Bパラメータへスケールしつつ多数のGPUでの訓練性を維持する。

実験結果

リサーチクエスチョン

RQ1英語を介さずに100言語の任意の言語対間で直接翻訳できる真の多対多MTシステムは競争力のある性能を達成できるか？
RQ2ブリッジ言語ベースのマイニングは、英語中心のマイニングと比較してデータ効率と言語方向間の翻訳品質にどう影響するか？
RQ3100言語設定における密結合スケーリングと言語特有の疎結合パラメータがモデル容量と翻訳品質に与える影響は？
RQ4Many-to-Many設定において、バックトランスレーションは多様な言語方向で一貫して翻訳品質を向上させるか？

主な発見

Model	Avg	Low	Mid	High
ランダム80%	11.9	3.6	16.1	31.5
ランダム80% 英語付き	16.3	8.9	22.4	36.6
ブリッジ言語、80%	17.2	10.4	23.2	37.4

非英語間の直接翻訳は、非英語方向同士を直接比較するとBLEUが10ポイント超向上し、英語中心の baseline とは対照的である。
14言語グループと26のブリッジ言語を用いるブリッジ言語マイニングは、英語中心のマイニングより並列データを多く得られ（5–10倍）、中・低資源言語のカバーを改善する。
バックトランスレーションは、Many-to-Manyの訓練データに追加すると、方向を問わずBLEUを一貫して改善し、特に性能の低い対に有効である。
スケーリング（密・疎の混合）を伴うM2M-100は最大15.4Bパラメータに達し、効率的な訓練を維持しつつ直接的な100×100翻訳方向を可能にする。
標準ベンチマークでは、訳方向がはるかに多いにもかかわらず、Many-to-ManyモデルはWMT等の最良の単一言語対システムと競争力がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。