Skip to main content
QUICK REVIEW

[論文レビュー] Multilingual Neural Machine Translation with Task-Specific Attention

Graeme Blackwood, Miguel Ballesteros|arXiv (Cornell University)|Jun 8, 2018
Natural Language Processing Techniques参考文献 21被引用数 53
ひとこと要約

本論文は、多言語NMTのためのタスク特異的アテンションのバリアントを提案し、ゼロショットを含む複数の言語方向で翻訳品質を向上させるとともに、パラメータのオーバーヘッドを小さく保つ。

ABSTRACT

Multilingual machine translation addresses the task of translating between multiple source and target languages. We propose task-specific attention models, a simple but effective technique for improving the quality of sequence-to-sequence neural multilingual translation. Our approach seeks to retain as much of the parameter sharing generalization of NMT models as possible, while still allowing for language-specific specialization of the attention model to a particular language-pair or task. Our experiments on four languages of the Europarl corpus show that using a target-specific model of attention provides consistent gains in translation quality for all possible translation directions, compared to a model in which all parameters are shared. We observe improved translation quality even in the (extreme) low-resource zero-shot translation directions for which the model never saw explicitly paired parallel data.

研究の動機と目的

  • 他のパラメータを共有しつつ、タスクごとにアテンションを特化させることで、完全な多言語NMTの翻訳品質を向上させる。
  • 言語間の一般化を活かすためにパラメータの共有を維持する。
  • すべての言語ペアごとに別個のモデルを必要とせず、ゼロショットおよび低リソース方向を強化する。

提案手法

  • 注目型NMTを拡張し、三つのタスク特異的アテンションのバリエーションを追加する:ターゲット特異、ソース特異、そしてペアドアテンション。
  • 訓練・デコード時に、選択されたタスク(言語または言語ペア)に依存して、アテンション重みとバイアスを条件付ける。
  • エンコーダの入力にタスクトークンを追加して、望ましいターゲット言語を示す。
  • 共有埋め込みと共通のサブワード語彙(80k BPE)を用いて、複数の言語方向にまたがる統合 Europarl データセットで訓練する。
  • アテンションを備えた単一のリカレントエンコーダ/デコーダを用い、少数のタスク特異的パラメータを追加する(各タスクにつき1つのアテンション重み行列と1つのバイアス)。
  • インドメインの dev/test セットおよびアウトオブドメインの News Commentary で BLEU で評価し、結果を5つのランダムシードで平均する。

実験結果

リサーチクエスチョン

  • RQ1ターゲット特異的アテンションは、完全に共有されたアテンションと比較して多言語MTを改善しますか?
  • RQ2ゼロショットを含むすべての翻訳方向で、三つのタスク特異的アテンションのバリエーションはどのように機能しますか?
  • RQ3パラメータ数と訓練効率への影響はどの程度ですか?
  • RQ4アウトオブドメインデータに対して改善は頑健ですか?
  • RQ5共有版とターゲット特異版のアテンションの視覚化はどのように異なりますか?

主な発見

  • ターゲット特異アテンションは、六方向にわたって、共有アテンションの多言語モデルと比較しておおよそ +0.5 〜 +0.9 の一貫したBLEU向上をもたらす。
  • ゼロショット翻訳は、ターゲット特異アテンションで約 +1.0 〜 +1.5 BLEU の改善を示す一方、ソース特異アテンションはゼロショットにはあまり有効ではない。
  • ペアドアテンションは、タスクあたりのデータが少なくゼロショットの明示的な処理がないことが原因で、共有アテンションに比べてほとんど改善を示さない。
  • 全体の多言語モデルは、ターゲット特異アテンションを備えた場合、完全に共有されたアテンションと比較して多言語設定で見られる劣化を低減し、アウトオブドメインデータでも堅牢に動作し、nc-dev2007/nc-devtest2007で +0.6 〜 +1.2 BLEU の利得をもたらす。
  • 本アプローチは、パラメータのオーバーヘッドがごく小さい(ターゲット特異モデルはターゲット言語ごとに1つの d×d 重み行列と d 個のバイアスを追加し、4つのターゲットで約1.2%の増加)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。