[論文レビュー] Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation
本論は、モノリンガルデータを自己教師あり学習と組み合わせて多言語NMTに統合し、低資源言語の翻訳を向上させ、並列データなしで未知の言語を効果的に追加できるようにする。
Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of low-resource languages via multilingual NMT. The second direction employs monolingual data with self-supervision to pre-train translation models, followed by fine-tuning on small amounts of supervised data. In this work, we join these two lines of research and demonstrate the efficacy of monolingual data with self-supervision in multilingual NMT. We offer three major results: (i) Using monolingual data significantly boosts the translation quality of low-resource languages in multilingual models. (ii) Self-supervision improves zero-shot translation quality in multilingual models. (iii) Leveraging monolingual data with self-supervision provides a viable path towards adding new languages to multilingual models, getting up to 33 BLEU on ro-en translation without any parallel data or back-translation.
研究の動機と目的
- NMTのために多言語転移学習と自己監視的モノリンガル事前学習を組み合わせる動機づけ。
- 多言語設定においてモノリンガルデータが言語間の翻訳品質を向上させることを示す。
- 自己監督が多言語モデルのゼロショット翻訳を高めることを示す。
- モノリンガルデータのみを用いて多言語NMTに新しい言語を追加する道筋を示す。
- 複数の言語対に対するWMTデータで経験的証拠を提供する。
提案手法
- MASSベースのマスクドシーケンスツーシーケンス事前学習を多言語NMTに適用する。
- ソース文の先頭にターゲット言語トークン <2xx> を付けて、出力言語を示す。
- 翻訳目的の監視付き並列データと MASS 目的を用いたモノリンガルデータを同時に学習する。
- リソースの不均衡に対処するために温度ベースのサンプリングで言語データのバランスを取る。
- 両方のソースを使用する場合、モノリンガル自己監督と並列データを50/50の比率で混ぜる。
- 標準の WMT バリデーション/テストセットで SacreBLEU によって評価する。
実験結果
リサーチクエスチョン
- RQ1モノリンガルデータと自己監督を組み込むことで、多言語NMT設定における低資源言語の翻訳品質は向上するか。
- RQ2自己監督は多言語モデルのゼロショット翻訳品質を改善するか。
- RQ3モノリンガルデータと自己監督は、並列データなしで新しい未知の言語を多言語モデルに追加するのに役立つか。
- RQ4このアプローチは、バイリンガルベースラインや pivot-based あるいは他の多言語設定と、言語対を横断してどのように比較されるか。
主な発見
- モノリンガルデータを追加すると、多言語NMTにおいて低資源言語の品質が大幅に向上する。
- 自己監督はゼロショット翻訳性能を改善し、アライメントや敵対的損失を伴わずに pivot ベースの方法に近づける。
- モノリンガルデータと自己監督により、新しい言語を強い翻訳品質で多言語モデルに追加でき、しばしば完全に監視された多言語ベースラインに近い。
- 高資源方向では、モノリンガルデータを用いた多言語モデルはバイリンガルベースラインと同等か近似し、いくつかの例外を除く。
- 特定の極めて低資源な言語では、モノリンガルデータの利得が特に大きく、(3–5 BLEU、方向によってはそれ以上)。
- ro-en では、モノリンガルデータを用いたモデルが XLM を上回り、MASSベースのバイリンガル性能とバック翻訳なしで同等となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。