Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Attention Model for Neural Machine Translation

Baskaran Sankaran, Haitao Mi|arXiv (Cornell University)|Aug 9, 2016
Natural Language Processing Techniques参考文献 21被引用数 52
ひとこと要約

この論文は、時間的アテンションメカニズムを強化するための時系列アテンションモデルを提案しており、アテンションの履歴を記憶・制御することで、繰り返しや漏れの誤りを低減する。この手法により、ベースラインNMTに対して1.5 BLEUポイントの翻訳品質向上を達成し、アンサンブルを用いない2つの言語対で強力なSMTベースラインを上回る性能を発揮する。

ABSTRACT

Attention-based Neural Machine Translation (NMT) models suffer from attention deficiency issues as has been observed in recent research. We propose a novel mechanism to address some of these limitations and improve the NMT attention. Specifically, our approach memorizes the alignments temporally (within each sentence) and modulates the attention with the accumulated temporal memory, as the decoder generates the candidate translation. We compare our approach against the baseline NMT model and two other related approaches that address this issue either explicitly or implicitly. Large-scale experiments on two language pairs show that our approach achieves better and robust gains over the baseline and related NMT approaches. Our model further outperforms strong SMT baselines in some settings even without using ensembles.

研究の動機と目的

  • NMTにおけるアテンションの欠陥、例えば繰り返しの発生や翻訳における内容の漏れを解消すること。
  • 時系列アテンション履歴をエンコードすることで、シーケンス・トゥ・シーケンス翻訳におけるアテンションのロバスト性と十分性を向上させること。
  • 追加パラメータを追加せずに、自然に1対多および多対多のアライメントをサポートするメカニズムを開発すること。
  • coverage embedding やローカルアテンションといった既存のNMTアプローチを上回る翻訳品質とアライメント精度を達成すること。
  • アンサンブルを用いない状態で、強力なSMTシステムと同等またはそれ以上のSOTA結果を達成すること。

提案手法

  • 各デコーダー時刻におけるアテンションアライメント重みを記憶し、過去のアライメント履歴の時系列的記憶を形成する。
  • 蓄積された時系列アライメント履歴を用いて、現在のアテンション分布を調整し、以前に注目した単語に過剰に注目するのを防ぐ。
  • 時系列記憶をソースの注釈とデコーダー隠れ状態と統合し、動的で文脈に適応したアテンション重みを計算する。
  • 既存のアテンション計算をメモリ拡張機構で再利用することで、追加のパラメータを導入しない。
  • データがそれを支持する場合に、複数のソース断片に注目できるようにすることで、高熟度の語彙モデル(多対多アライメント)を実現する。
  • 交差エントロピー損失を用いた標準的なNMT目的関数に従い、エンド・ツー・エンドでモデルを学習する。

実験結果

リサーチクエスチョン

  • RQ1過去のアライメント履歴の時系列的記憶は、NMTにおけるアテンションの安定性を向上させ、繰り返しを低減できるか?
  • RQ2アライメント履歴をモデル化することで、ソースコンテンツのカバー率が向上し、漏れの誤りが減少するか?
  • RQ3提案手法の時系列アテンションメカニズムは、coverage embedding やローカルアテンションと比較して、翻訳品質およびアライメント精度で優れているか?
  • RQ4アンサンブルを用いない状態で、強力なSMTシステムと同等またはそれ以上の性能を達成できるか?
  • RQ5時系列アテンションメカニズムは、手動アノテート済みデータにおけるアライメントF1スコアをどの程度向上させるか?

主な発見

  • 提案された時系列アテンションモデルは、De-En言語対においてベースラインNMTモデル比で1.5 BLEUポイントのスコア向上を達成した。
  • En-Jp設定では、BLEUスコア28.70、Ribesスコア0.7232を達成し、ベースラインLVNMTを上回った。
  • ローカルアテンションベースラインと比較して、繰り返しフレーズを40%削減し、平均繰り返し長さを7.27トークンから3.47トークンに低下させた。
  • Zh-Enテストセットでは、アライメントF1スコアが46.71を記録し、ベースラインNMT比で2.5ポイント向上、coverage embedding比で1.5ポイント向上した。
  • 強力なSMTベースライン(例:MT06およびMT08-Web)をBLEUスコアで上回り、一部のテストセットで3ポイントの絶対的向上を達成した。
  • 時系列アテンションシステムのアンサンブルモデルは、最大2 BLEUポイントの向上を達成し、SMTを約2 BLEUポイント上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。