Skip to main content
QUICK REVIEW

[論文レビュー] Using Whole Document Context in Neural Machine Translation

Valentin Macé, Christophe Servan|arXiv (Cornell University)|Oct 16, 2019
Natural Language Processing Techniques参考文献 25被引用数 25
ひとこと要約

本稿では、事前に計算された文書埋め込みを用いて全文脈を統合することで、ニューラル機械翻訳を簡素かつ非アーキテクチャ的手法で向上させる手法を提案する。SWEM-averを用いて文書全体の語ベクトルを平均化し、それをTransformerモデルに組み込むことで、翻訳の整合性が向上し、文間の曖昧さが解消される。英語=ドイツ語タスクでは最大0.85のBLEU向上を達成し、英語=フランス語およびフランス語=英語タスクでは1以上のBLEU向上を示した。

ABSTRACT

In Machine Translation, considering the document as a whole can help to resolve ambiguities and inconsistencies. In this paper, we propose a simple yet promising approach to add contextual information in Neural Machine Translation. We present a method to add source context that capture the whole document with accurate boundaries, taking every word into account. We provide this additional information to a Transformer model and study the impact of our method on three language pairs. The proposed approach obtains promising results in the English-German, English-French and French-English document-level translation tasks. We observe interesting cross-sentential behaviors where the model learns to use document-level information to improve translation coherence.

研究の動機と目的

  • 標準的なNMTにおける文書レベルの文脈の欠如が翻訳の一貫性に与える影響を是正すること。
  • 任意のNMTモデルがアーキテクチャの変更なしに全文書の文脈を活用できる、侵襲的でない前処理ベースの手法を検討すること。
  • 全文書埋め込みが、代名詞の解決や語の意味の曖昧さ解消といった文脈依存現象の翻訳を改善できるかどうかを評価すること。
  • 文書レベルの文脈が翻訳品質を顕著に向上させることを示し、とくに曖昧性や話法に敏感なケースにおいて顕著な効果を発揮することを示すこと。

提案手法

  • SWEM-aver法を用いて、文書に含まれるすべての語ベクトルを平均化し、固定サイズの単一ベクトルとして文書埋め込みを事前に計算する。
  • 語と文書の埋め込みの整合性を保つために、ベースラインTransformerモデルからの事前学習済み語埋め込みを用いる。
  • 入力トークン埋め込みと文書埋め込みを連結することで、Transformerエンコーダの入力に文書埋め込みを統合する。
  • 埋め込みの微調整を行わずにモデルを訓練することで、語と文書表現の意味的リンクを維持する。
  • 学習データのソース側に文書タグを付与し、各文がその全文書の文脈に関連付けられるようにする。
  • 標準ベンチマークデータセットを用いて、英語=ドイツ語、英語=フランス語、フランス語=英語の3つの言語対に本手法を適用する。

実験結果

リサーチクエスチョン

  • RQ1事前に計算された埋め込みを用いて全文書の文脈を統合することで、ニューラル機械翻訳の性能が向上するか?
  • RQ2提案手法が、代名詞の参照や語の意味の曖昧さ解消といった文間の曖昧さを効果的に解消できるか?
  • RQ3話法レベルの理解を要するケースにおいて、異なる言語対で性能向上の度合いに差が生じるか、特に話法に敏感な翻訳タスクでどう変化するか?
  • RQ4アーキテクチャを変更しない、前処理ベースの手法が、NMTモデルの構造を変更せずに顕著な改善を達成できるか?

主な発見

  • 提案手法は、英語=ドイツ語翻訳タスクで最大0.85のBLEU向上を達成した。
  • 英語=フランス語およびフランス語=英語タスクでは、1以上のBLEUポイントの向上を示し、複雑で文脈に敏感な翻訳において顕著な向上が確認された。
  • 「lui」(彼女対彼)や「elle」(彼女対それ)といった曖昧な代名詞を、ベースラインモデルが文脈不足のため失敗するのに対し、ドキュメントモデルは正しく解釈した。
  • 形式的・非形式的代名詞(例:「vous」対「tu」)のケースでは、文脈が形式的であると判断された場合にドキュメントモデルは「vous」を正しく選択したが、ベースラインモデルは「tu」を選択した。
  • 本手法は文間の行動を示し、モデルが文書レベルの情報を活用して一貫性を向上させ、長距離依存関係を解消する能力を学習した。
  • 両モデルが誤りを犯したケースでも、ドキュメントモデルの予測は文脈的により妥当であり、文書構造に基づくより優れた推論能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。