Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Neural Machine Translation

Mikel Artetxe, Gorka Labaka|arXiv (Cornell University)|Oct 30, 2017
Natural Language Processing Techniques参考文献 28被引用数 95
ひとこと要約

この論文は、共有エンコーダーと固定されたクロスリンガル埋め込み、デノイジング、およびオンザフライバックトランスレーションを用いることで、並列データなしのNMTシステムを訓練し、WMT 2014のフランス語-英語およびドイツ語-英語タスクで顕著なBLEUスコアを達成します。

ABSTRACT

In spite of the recent success of neural machine translation (NMT) in standard benchmarks, the lack of large parallel corpora poses a major practical problem for many language pairs. There have been several proposals to alleviate this issue with, for instance, triangulation and semi-supervised learning techniques, but they still require a strong cross-lingual signal. In this work, we completely remove the need of parallel data and propose a novel method to train an NMT system in a completely unsupervised manner, relying on nothing but monolingual corpora. Our model builds upon the recent work on unsupervised embedding mappings, and consists of a slightly modified attentional encoder-decoder model that can be trained on monolingual corpora alone using a combination of denoising and backtranslation. Despite the simplicity of the approach, our system obtains 15.56 and 10.21 BLEU points in WMT 2014 French-to-English and German-to-English translation. The model can also profit from small parallel corpora, and attains 21.81 and 15.24 points when combined with 100,000 parallel sentences, respectively. Our implementation is released as an open source project.

研究の動機と目的

  • 実用的なNMTを、ほとんどまたは全く並列データがない言語ペアのために動機づける。
  • モノリンガルコーパスのみを活用する教師なしNMTモデルを提案する。
  • デノイジングとバックトランスレーションが並列データなしで翻訳を学習させることを示す。

提案手法

  • 単一の共有エンコーダを備えたデュアル、二言語システムを採用する。
  • エンコーダでクロスリンガル埋め込みを固定し、言語に依存しない表現を得る。
  • ノイズの入った入力のデノイジングを通じて、言語間の構成的な構造を学習する。
  • 訓練中の擬似並列データを生成するためにオンザフライのバックトランスレーションを組み込む。
  • 小規模な並列コーパスと組み合わせて半教師付き設定とすることもできる。
  • GRUユニットと300次元埋め込みを用いた標準的な注意機構を持つエンコーダ-デコーダを使用し、クロスエントロピー損失とAdamオプティマイザで訓練する。

実験結果

リサーチクエスチョン

  • RQ1NMTシステムは、並列コーパスなしでモノリンガルデータのみから効果的に訓練できるか?
  • RQ2デノイジングとバックトランスレーションは、教師なし設定におけるクロスリンガル翻訳品質にどのように寄与するか?
  • RQ3固定されたクロスリンガル埋め込みと共有エンコーダは、言語間の真の翻訳関係を学習するのにどの程度寄与するか?

主な発見

フランス語-英語英語-フランス語ドイツ語-英語英語-ドイツ語
1. ベースライン(埋め込み最近傍)9.986.257.074.39
2. 提案(デノイジング)7.285.333.642.40
3. Proposed (+ backtranslation)15.5615.1310.216.55
4. 提案(+BPE)15.5614.3610.166.89
5. 半監視型提案(10k並列)18.5717.3411.477.86
6. 半監視型提案(100k並列)21.8121.7415.2410.95
7. 類似NMT(10k並列)1.881.661.330.82
8. 類似NMT(100k並列)10.409.198.115.29
9. 類似NMT(全並列)20.4819.8915.0411.05
10. GNMT (Wu et al., 2016)-38.95-24.61
  • 未監視のフレンチ-英語およびドイツ語-英語翻訳で、WMT 2014において15.56 BLEU(FR→EN)および10.21 BLEU(DE→EN)を達成。
  • 100kの並列文と組み合わせると、21.81 BLEU(FR→EN)および15.24 BLEU(DE→EN)に向上。
  • バックトランスレーションはデノイジングのみより著しく性能を向上させ、その重要な役割を示している。
  • サブワード単位(BPE)は方向依存的なわずかな利点を提供する。
  • 小規模な並列データを用いた半教師付き訓練は、完全に教師なしの訓練よりさらなる改善をもたらす。
  • このアプローチは、語彙ごとの置換を超えた非定型な翻訳関係を学習する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。