QUICK REVIEW

[論文レビュー] The Missing Ingredient in Zero-Shot Neural Machine Translation

Naveen Arivazhagan, Ankur Bapna|arXiv (Cornell University)|Mar 17, 2019

Natural Language Processing Techniques参考文献 39被引用数 92

ひとこと要約

本論文は、多言語NMTにおけるパラメータの純粋な共有が実用的なゼロショット翻訳を妨げることを特定し、言語不変表現を強制するエンコーダーレベルの補助損失を提案して、WMT14でのピボット方式と同等のゼロショット性能、IWSLT17でのスケーラブルな結果を達成した。

ABSTRACT

Multilingual Neural Machine Translation (NMT) models are capable of translating between multiple source and target languages. Despite various approaches to train such models, they have difficulty with zero-shot translation: translating between language pairs that were not together seen during training. In this paper we first diagnose why state-of-the-art multilingual NMT models that rely purely on parameter sharing, fail to generalize to unseen language pairs. We then propose auxiliary losses on the NMT encoder that impose representational invariance across languages. Our simple approach vastly improves zero-shot translation quality without regressing on supervised directions. For the first time, on WMT14 English-FrenchGerman, we achieve zero-shot performance that is on par with pivoting. We also demonstrate the easy scalability of our approach to multiple languages on the IWSLT 2017 shared task.

研究の動機と目的

全パラメータ共有を行う多言語NMTにおけるゼロショット翻訳がなぜ十分に機能しないかを診断し、研究の動機づけを行う。
言語不変なエンコーダ表現を強制する補助損失を提案・評価する。
ベンチマークデータセット上でのゼロショット性能が、マルチフェーズなデータ合成を用いずにピボット法と同等になることを示す。
このアプローチの追加言語（IWSLT17）へのスケーラビリティを示す。
より良いゼロショットMTの欠落要因としてのクロスリンガル転送の役割を明らかにする。

提案手法

ゼロショット翻訳を、英語をソースドメイン、他言語をターゲットドメインとするドメイン適応問題として定式化する。
標準のクロスエントロピー翻訳損失に整列正則化損失を追加する（Loss = CE + lambda * Omega）。
正則化の2つのクラスを提供: (a) ドメイン対向損失による分布レベルの整列, (b) 既知の翻訳対（パラレル）を活用したコサイン類似度目的関数を用いるインスタンスレベルの整列。
ターゲット言語を示す言語トークンを用いた共有エンコーダ/デコーダ Transformer ベースモデルを使用し、エンドツーエンドで学習する。
翻訳損失と整列損失のバランスを取るように lambda を調整する（実験では lambda = 1.0）。
コサインベースの整列と対抗的整列を、頑健性と性能の観点で比較し、コサイン損失の単純さを強調する。

実験結果

リサーチクエスチョン

RQ1結合重みを共有した多言語NMTモデルがゼロショット言語ペアには一般化できないのはなぜか。
RQ2言語間のエンコーダ表現の明示的な整列は、教師付き方向を損なうことなくゼロショット翻訳を改善できるか。
RQ3英語は多言語NMTにおける潜在空間でのクロスリンガル転送の実用的なピボットとなり得るか。
RQ4単純な整列損失は対抗的方法と比較してゼロショットMTの改善に如何に寄与するか、またこのアプローチのより多くの言語へのスケーラビリティはどの程度か。

主な発見

ベースラインの多言語NMTは、ピボット法と比較して強い教師付き性能を示す一方、ゼロショット性能は弱く、言語の絡み合いが顕著で、出力が誤った言語に翻訳されるエラーが生じる。
de->fr のゼロショット BLEU は 17.00（バニラ）から 26.00（対抗的）および 25.85（プールコサイン）へ改善。fr->de は 11.84（バニラ）から 20.39（対抗的）および 20.18（プールコサイン）へ改善。
英語をピボットとして用いた場合、de->fr が 26.25、fr->de が 20.18 となり、潜在表現の整列がピボットとの差を縮めうることを示している。
コサインベースの整列は、対抗法にほぼ匹敵する単純で頑健なアプローチであり、ハイパーパラメータが少なく感度も低い。
IWSLT17 では、コサイン整列付き多言語モデルがピボット法と同等を示し、より多くの言語（8–20言語構成）へのスケーラビリティを持ち、ゼロショットの結果がピボット性能に近づくか同等になる。
整列損失は、ソース言語表現とターゲット言語信号を効果的に分離し、教師付き方向を低下させることなくゼロショットの一般化を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。