Skip to main content
QUICK REVIEW

[論文レビュー] Universal Neural Machine Translation for Extremely Low Resource Languages

Jiatao Gu, Hany Hassan|arXiv (Cornell University)|Feb 15, 2018
Natural Language Processing Techniques参考文献 24被引用数 47
ひとこと要約

本論文は Universal Lexical Representation (ULR) と Mixture of Language Experts (MoLE) を提案し、複数の言語間の転移学習を可能にする。tiny parallel corpora と zero-shot transfer を用いて、極めて低リソースの言語ペアに対して強い BLEU 増加を達成する。

ABSTRACT

In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. The lexical part is shared through a Universal Lexical Representation to support multilingual word-level sharing. The sentence-level sharing is represented by a model of experts from all source languages that share the source encoders with all other languages. This enables the low-resource language to utilize the lexical and sentence representations of the higher resource languages. Our approach is able to achieve 23 BLEU on Romanian-English WMT2016 using a tiny parallel corpus of 6k sentences, compared to the 18 BLEU of strong baseline system which uses multilingual training and back-translation. Furthermore, we show that the proposed approach can achieve almost 20 BLEU on the same dataset through fine-tuning a pre-trained multi-lingual system in a zero-shot setting.

研究の動機と目的

  • 最小限の並列データしかない言語の翻訳を動機づけ、対処する。
  • 低リソース翻訳を改善するための言語間の語彙および文レベルの共有を開発する。
  • ほぼゼロリソース言語ペアで普遍的な NMT フレームワークを評価し、マルチリンガルベースラインと比較する。
  • 超低リソース設定におけるバックトランスレーションとファインチューニングの利点を示す。

提案手法

  • 任意の言語の語を共有された普遍的トークン空間に写す Universal Lexical Representation (ULR) を導入し、訓練可能な埋め込み行列 E^U と言語特有の埋め込みを普遍トークンと整列させる射影を用いる。
  • 離散的な普遍トークン空間(主に英語)を定義し、ソース語 x を普遍トークンへ分配する共通変換 A を学習して q(u|x) を計算する。
  • 頻繁に出現する語に対して、言語特有の埋め込みと普遍トークン混合の間の学習済み補間(alpha/beta スキーム)を使用する。
  • エンコーダの後に Mixture of Language Experts (MoLE) を提案し、文レベルの変動を各補助言語につき 1 つのエキスパートとゲーティングネットワークでモデル化し、言語ゲート付きの目的関数で学習する。
  • 多言語 NMT フレームワーク内で訓練し、超高リソース言語を補助として極端に低リソースのペアを支援し、必要に応じて tiny データセットでバックトランスレーション (BT) およびファインチューニングを適用する。

実験結果

リサーチクエスチョン

  • RQ1普遍的な語彙表現は、並列データが不足している言語間で効果的な共有を可能にするか。
  • RQ2言語エキスパートの混成は、低リソース言語の文レベルの共有と翻訳品質を改善するか。
  • RQ3ULR と MoLE はバックトランスレーションとファインチューニングとどのように相互作用して、高リソースデータへのギャップを縮めるか。
  • RQ4補助言語と言語族の関連性は、ゼロリソース翻訳の性能にどのような影響を与えるか。
  • RQ5事前学習済み多言語モデルをファインチューニングすることで、超低リソース言語ペアに顕著な利益をもたらすか。

主な発見

  • MoLE を含む ULR は、Ro-En、Lv-En、Ko-En のような並列データが極めて限られている設定で、マルチNMTベースラインに加算的な改善をもたらす。
  • Ro-En を 6k の並列文で評価すると、ULR + MoLE + BT はベースラインに対して BLEU を最大 7.98 追加し、BT 併用で 22.92 増、完全データ NMT の 28.34 に対しては比較的近い水準。
  • ULR は未知トークンを普遍トークン空間へ射影することで、ゼロリソース設定における語彙ギャップを緩和し、未知語の扱いを改善する。
  • MoLE の活性化は言語の関連性を反映する;Ro はロマンス語群を活用し、Lv はロシア語の恩恵を受け、MoLE は文脈ごとに適切なエキスパートを選択する傾向がある。
  • 超低リソースデータで事前学習済み多言語モデルをファインチューニングすると、BLEU が大幅に改善され、Ro-En で数エポック後には ~20 BLEU に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。