Skip to main content
QUICK REVIEW

[論文レビュー] Syntax-Directed Attention for Neural Machine Translation

Kehai Chen, Rui Wang|arXiv (Cornell University)|Nov 12, 2017
Natural Language Processing Techniques被引用数 58
ひとこと要約

本論文は、構文距離制約を用いてローカル注意を強化する構文指向注意(SDAtt)を導入し、グローバル文脈と構文指向ローカル文脈を組み合わせたダブルコンテキストNMTアーキテクチャを提案。中国語-英語と英語-ドイツ語の翻訳で強力なベースラインより改善を達成。

ABSTRACT

Attention mechanism, including global attention and local attention, plays a key role in neural machine translation (NMT). Global attention attends to all source words for word prediction. In comparison, local attention selectively looks at fixed-window source words. However, alignment weights for the current target word often decrease to the left and right by linear distance centering on the aligned source position and neglect syntax-directed distance constraints. In this paper, we extend local attention with syntax-distance constraint, to focus on syntactically related source words with the predicted target word, thus learning a more effective context vector for word prediction. Moreover, we further propose a double context NMT architecture, which consists of a global context vector and a syntax-directed context vector over the global attention, to provide more translation performance for NMT from source representation. The experiments on the large-scale Chinese-to-English and English-to-Germen translation tasks show that the proposed approach achieves a substantial and significant improvement over the baseline system.

研究の動機と目的

  • NMTにおける線形距離に基づくローカル注意の限界を、構文距離制約を取り入れて動機づけし、対処する。
  • 依存木から導出された構文距離制約(SDC)マスクを提案し、注意を導く。
  • SDCを用いて構文フォーカス型のコンテキストベクトルを計算する構文指向注意(SDAtt)を導入。
  • グローバル文脈と構文指向ローカル文脈を組み合わせたダブルコンテキストNMTアーキテクチャを提案。
  • 大規模なZH-ENおよびEN-DEタスクで評価し、強力なベースラインに対する改善を示す。

提案手法

  • 依存木から構文距離制約マスク行列 M を学習してローカル注意を拡張する。
  • 構文距離に対するガウス分布を用いて整列スコア e_ij を計算し、M[p_i] を用いて n-gram SDAtt の alpha^{s_n}_{ij} を生成する。
  • alpha^{s_n}_{ij} で加重された h_j から構文指向コンテキストベクトル c^s_i を導出し、語彙予測に用いる。
  • SDAtt をグローバル文脈ベクトル c^g_i を含むダブルコンテキストアーキテクチャに組み込み、P(y_i|y_<i,x,T) = softmax(L_o tanh(L_w E_y[y_{i-1}] + L_d s_i + L_cg c^g_i + L_cs c^s_i))。
  • Nematusで中国語-英語(ZH-EN)および英語-ドイツ語(EN-DE)タスクを訓練・評価する;依存木にはStanfordパーサを使用;語彙上限は50k、最大80トークン;ADADELTA最適化。
  • PBSMT、GlobalAtt、LocalAtt、FlexibleAtt、Chen et al. 2017 のベースラインと比較。

実験結果

リサーチクエスチョン

  • RQ1構文距離情報はNMTの注意機構を線形距離の制約を超えて改善できるか。
  • RQ2構文指向注意機構は標準のグローバル/ローカル/フレキシブル注意のベースラインより翻訳品質を向上させるか。
  • RQ3構文指向ローカル文脈を従来のグローバル文脈と組み合わせるダブルコンテキストは追加の利得をもたらすか。
  • RQ4SDAttは異なる系統的特徴を持つ言語対(ZH-ENとEN-DE)や文長に対してどの程度の性能を示すか。

主な発見

  • SDAttはZH-ENでGlobalAttより平均1.32BLEUポイント改善。
  • SDAttはZH-ENでLocalAttおよびFlexibleAttよりそれぞれ0.97ポイントおよび1.04ポイント改善。
  • SDAttはZH-ENでChen et al. 2017より平均0.47BLEUポイント上回る。
  • EN-DEではSDAttはZH-ENと同様の改善を示し、言語対を超えた堅牢性を示唆。
  • ダブルコンテキスト+SDAttは単一コンテキストより追加の利得を生み、例としてZH-ENで+SDAttは+LocalAttおよび+FlexibleAttを大幅に上回る。
  • SDAttは長文を含む文長範囲でもベースラインより高いBLEUスコアを維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。