Skip to main content
QUICK REVIEW

[論文レビュー] Lattice-Based Recurrent Neural Network Encoders for Neural Machine Translation

Jinsong Su, Zhixing Tan|arXiv (Cornell University)|Sep 25, 2016
Natural Language Processing Techniques被引用数 57
ひとこと要約

本稿では、複数のトークン化を含むソース文の語彙格子を処理できるラティスベースのRNNエンコーダーを提案する。標準的なRNNを一般化することで、1-bestトークン化からの誤り伝播を軽減し、中国語-英語翻訳において顕著な性能向上を達成する。

ABSTRACT

Neural machine translation (NMT) heavily relies on word-level modelling to learn semantic representations of input sentences. However, for languages without natural word delimiters (e.g., Chinese) where input sentences have to be tokenized first, conventional NMT is confronted with two issues: 1) it is difficult to find an optimal tokenization granularity for source sentence modelling, and 2) errors in 1-best tokenizations may propagate to the encoder of NMT. To handle these issues, we propose word-lattice based Recurrent Neural Network (RNN) encoders for NMT, which generalize the standard RNN to word lattice topology. The proposed encoders take as input a word lattice that compactly encodes multiple tokenizations, and learn to generate new hidden states from arbitrarily many inputs and hidden states in preceding time steps. As such, the word-lattice based encoders not only alleviate the negative impact of tokenization errors but also are more expressive and flexible to embed input sentences. Experiment results on Chinese-English translation demonstrate the superiorities of the proposed encoders over the conventional encoder.

研究の動機と目的

  • 中国語のような低リソース・スペース区切りのない言語における最適でない、または誤りの多い語彙分割の課題に対処する。
  • 標準的なNMTエンコーダーにおける1-bestトークン化からの誤り伝播を、複数の候補分割を組み込むことで軽減する。
  • 語彙格子のトポロジーを活用してRNNエンコーダーの表現力と柔軟性を向上させる。
  • ラティスベースのRNNが中国語-英語翻訳における神経機械翻訳性能の向上に有効であることを実証する。

提案手法

  • 各ノードが語彙候補を表し、エッジが候補間の遷移を表す語彙格子上で動作する標準的なRNNを一般化する。
  • 2つの変種を提案する:構造的変更なしに複数の経路からの入力と隠れ状態を統合する浅いラティスGRU、およびトークン化固有のゲート、入力、隠れ状態の更新を学習する深いラティスGRU。
  • アテンション機構で、すべてのラティス経路からのソースアノテーションの重み付き和を用いてコンテキストベクトルを計算する。
  • 標準的なNMTの目的関数に従ってエンコーダーをエンドツーエンドで学習し、エンコーディング中に関連するラティス経路に動的に注目できるようにする。
  • 複数の分割システム(例:CTB、PKU、MSR)を用いて語彙格子を構築し、多様で高カバレッジのトークン化を生成する。
  • 各タイムステップで、すべてのラティス経路にわたる隠れ状態と入力を集約することで、ラティス入力をGRU更新式に統合する。

実験結果

リサーチクエスチョン

  • RQ1語彙境界が自然に存在しない言語におけるNMTにおいて、語彙格子はソース文の表現学習を改善できるか?
  • RQ2複数のトークン化を同時に処理することで、NMTにおける1-bestトークン化誤りの悪影響を軽減できるか?
  • RQ3翻訳品質と耐性の観点から、ラティスベースのRNNエンコーダーは標準的なRNNエンコーダーと比べて優れているか?
  • RQ4多様な分割仮説を活用することで、ラティスベースのエンコーダーはより良い意味的表現を捉えることができるか?

主な発見

  • 提案されたラティスベースのRNNエンコーダーは、中国語-英語翻訳において標準的なRNNエンコーダーを顕著に上回り、BLEUスコアで一貫した向上を示した。
  • ラティスコーパスは、CTB、PKU、MSRなどの個別のトークン化コーパスよりも、語彙内語彙のカバー率が最も高かった。
  • 複数の分割仮説の使用により、UNKトークンの数が減少し、カバレッジが向上し、語彙外問題が軽減された。
  • 深いラティスGRUバージョンは浅いバージョンよりも優れた性能を示し、トークン化固有の表現を学習することでモデルの表現能力が向上することを示した。
  • 結果から、特に中国語のような言語において、語境界情報は正確な文の表現に不可欠であることが確認された。
  • 本研究は、NMTにおけるRNNエンコーダーに語彙格子を統合した初の試みであり、耐障害性の高いシーケンスモデリングの新しいパラダイムを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。