Skip to main content
QUICK REVIEW

[論文レビュー] Towards Neural Phrase-based Machine Translation

Po-Sen Huang, Chong Wang|arXiv (Cornell University)|Jun 17, 2017
Natural Language Processing Techniques被引用数 24
ひとこと要約

本稿では、Sleep-Wake Networks (SWAN) と新しいソフトローカル再配置層を用いて、ターゲット言語のフレーズ構造を明示的にモデル化する、sequence-to-sequenceモデルであるNeural Phrase-based Machine Translation (NPMT) を提案する。このモデルは、逐次的配置制約を緩和する。NPMT は注意機構を用いず、IWSLT 2014 および IWSLT 2015 の翻訳タスクで最先端のBLEUスコアを達成し、フレーズレベルのモデリングが翻訳品質を向上させ、線形時間でのデコードを可能にすることを示している。

ABSTRACT

In this paper, we present Neural Phrase-based Machine Translation (NPMT). Our method explicitly models the phrase structures in output sequences using Sleep-WAke Networks (SWAN), a recently proposed segmentation-based sequence modeling method. To mitigate the monotonic alignment requirement of SWAN, we introduce a new layer to perform (soft) local reordering of input sequences. Different from existing neural machine translation (NMT) approaches, NPMT does not use attention-based decoding mechanisms. Instead, it directly outputs phrases in a sequential order and can decode in linear time. Our experiments show that NPMT achieves superior performances on IWSLT 2014 German-English/English-German and IWSLT 2015 English-Vietnamese machine translation tasks compared with strong NMT baselines. We also observe that our method produces meaningful phrases in output languages.

研究の動機と目的

  • フレーズベースのSMTの成功にインspiredされ、ターゲット言語におけるフレーズ構造を明示的にモデル化するニューラル機械翻訳システムの開発。
  • 入力シーケンスに対するソフトローカル再配置層を導入することで、SWANに内在する逐次的配置制約を緩和する。
  • 注意機構を用いず、直接フレーズを順序で出力するデコーダフリーなアーキテクチャを設計し、線形時間での推論を可能にする。
  • 標準の注意機構を用いたNMTと比較して、自動的に発見されたフレーズのディスカッションが翻訳性能を向上させるかを評価する。
  • フレーズレベルのモデリングが翻訳品質を向上させ、出力に意味的で再利用可能なフレーズを生成することを実証する。

提案手法

  • NPMT は、バイディレクショナルLSTMエンコーダに供給する前に、入力シーケンスの(ソフトな)ローカル再配置を実行するため、ウィンドウサイズ7のソフト再配置層を用いる。
  • 再配置層は、SWANに内在する逐次的配置仮定を緩和し、非逐次的入力-出力対応を可能にする。
  • 512個の隠れユニットを有するバイディレクショナルLSTMエンコーダが、再配置済みの入力表現を処理する。
  • 出力は、ターゲットシーケンスの分割をモデル化し、注意機構を用いず直接フレーズを予測するSWAN層に供給される。
  • モデルはグリーディデコードとビームサーチ(ビームサイズ10)を用い、ベトナム語のBLEU向上のため4次元言語モデル(KenLM)を統合する。
  • ハイパーパramータには、1GPUあたり48のバッチサイズ、初期学習率0.001のAdam最適化、ドロップアウト率0.4が含まれる。

実験結果

リサーチクエスチョン

  • RQ1標準の注意機構を用いたモデルと比較して、ターゲット言語における明示的なフレーズモデリングがニューラル機械翻訳性能を向上させるか?
  • RQ2ソフト再配置層によってSWANの逐次的配置制約を緩和することで、翻訳品質とより柔軟な対応が向上するか?
  • RQ3注意機構を用いず、フレーズベースのデコード機構が競争力のあるBLEUスコアを達成できるか?
  • RQ4ターゲット言語で自動的に発見されたフレーズが、翻訳のなめらかさと意味的整合性をどの程度向上させるか?
  • RQ5NPMT は、英ベトナム語のような低リソース言語ペアを含め、多様な言語ペアに一般化可能か?

主な発見

  • ビームサーチを用いて、IWSLT 2015 英語-ベトナム語の tst2013 テストセットで27.69のBLEUスコアを達成し、注意機構付きのベースラインモデルより1.59 BLEUポイント優れている。
  • 言語モデルを統合することで、BLEUスコアは28.07に向上し、構造モデリングとn-gram言語モデリングの組み合わせの有効性を示している。
  • IWSLT 2014 のドイツ語-英語および英語-ドイツ語タスクにおいて、強力な注意機構付きNMTベースラインと比較して、優れたBLEUスコアを達成している。
  • 定性的な例から、モデルが出力で意味的で整合性のあるフレーズを生成していることが示されており、多語語単位の正しく分割された翻訳が得られている。
  • NPMT は、注意機構を避けて直接フレーズを順に生成するため、線形時間でデコードされ、計算的に効率的である。
  • ソフト再配置層は、SWANの逐次的配置制約を効果的に緩和し、非逐次的言語ペアでも優れた性能を発揮している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。